Сравнение данных на совпадение

0

1

Привет, всем.

Подскажите как быть. Есть два файла, с данными. В одном 10 000 строк в другом 800 000. Задача, надо найти совпадения и вывести список.

Каким способом это быстро можно сделать. У меня тут идея, вогнать это в mysql в две таблици и с помощью php сделать новый список.

Второй вариант с помощью bash скрипта создать массив и перебрать его, но думаю это будет очень долго ....

sort file1 > file1_sorted
sort file2 > file2_sorted
comm -12 file1_sorted file2_sorted > file3

kostik87 ★★★★★
(20.02.13 17:21:31 MSK)

если много памяти то самый простой вариант
grep -f 10000.txt 800000.txt

zolden ★★★★★
(20.02.13 17:47:41 MSK)

третий вариант - взять vimdiff и не париться с любыми другими вариантами

q11q11 ★★★★★
(20.02.13 18:12:39 MSK)

Ответ на: комментарий от q11q11 20.02.13 18:12:39 MSK

800 000 txt файл 86 мег это мона grep?

macik ★
(20.02.13 18:27:30 MSK) автор топика

Ответ на: комментарий от macik 20.02.13 18:27:30 MSK

Не проще было просто попробовать? Мона.

Suntechnic ★★★★★
(20.02.13 18:38:36 MSK)

Ответ на: комментарий от Suntechnic 20.02.13 18:38:36 MSK

Не проще было просто попробовать? Мона.

У меня тут 1с-ник попробовал, на целую ночь сервер 1C завис так и не сделал сравнение и замену ;(

macik ★
(20.02.13 18:48:31 MSK) автор топика

Ответ на: комментарий от macik 20.02.13 18:48:31 MSK

Господи, ну прибил бы процесс... Запусти в отдельной консоли и убей через Alt+SysRq+K, если боишься что вообще терминал повиснет.

Suntechnic ★★★★★
(20.02.13 19:46:04 MSK)

эта, diff, comm etc

IPR ★★★★★
(20.02.13 21:04:33 MSK)

Ответ на: комментарий от macik 20.02.13 18:27:30 MSK

я про греп ничего не говорил, я говорил про vimdiff, ну или gvimdiff, дело вкуса

800 000 txt файл 86 мег

это для вима семечки

q11q11 ★★★★★
(20.02.13 23:56:52 MSK)

Ответ на: комментарий от kostik87 20.02.13 17:21:31 MSK

sort file1 > file1_sorted
sort file2 > file2_sorted
comm -12 file1_sorted file2_sorted > file3

Супер!

Проверил, все делалось 10, 15 секунд.

Огромное спасибо.

macik ★
(21.02.13 02:55:30 MSK) автор топика

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

Похожие темы