У меня есть массивная таблица с более чем 1,3 млрд записей. Эта таблица основана на данных уровня веб-событий. Он имеет уникальный ключ в mongo_id
. В таблице много повторяющихся записей; но для этих повторяющихся записей mongo_id
все еще отличается. Другими словами, есть повторяющиеся записи, в которых, кроме поля mongo_id
, дублируется все остальное. Я хотел бы удалить эти записи из таблицы.
Если бы все поля в таблице были дублированы, я мог бы использовать что-то вроде этого, чтобы удалить дубликаты:
create table table_name_new as select distinct * from table_name;
alter table table_name rename to table_name_old;
alter table table_name_new rename to table_name;
drop table table_name_old;
Но так как у меня дублируются записи во всех полях, кроме mongo_id
, я не знаю, как выявить и удалить дубликаты.
Любая помощь в этом вопросе будет принята с благодарностью.