Удалить дубли из огромного файла

0

3

Добрый день! Есть файл вида:

[root@master STATS_RAID0]# cat file1 | head -n 10 
835903804
835903804
143903655
159156315
167873790
835903804
835903804
112101483
167873738
819435027

Строк в нем:

[root@master STATS_RAID0]# cat  file1 |  wc -l
455702491

Судя по всему 30% там дубли, нужно на выходе иметь файл с уникальными записями.

Запрос вида:

cat  file1 | sort -u  >file_unic.txt

Результата не дает, висит без ответа... Нужно что-то производельное..

Ссылка

←	Ковыряю хардверный прокси BlueCoat ProxySG 510

HP Ultrium 960 data compression

→

если много памяти, то

awk '!x[$0]++' file1 > file_unic.txt

zolden ★★★★★
(27.11.14 11:43:56 MSK)
Последнее исправление: zolden 27.11.14 11:45:29 MSK (всего исправлений: 1)

Ответ на: если много памяти, то от zolden 27.11.14 11:43:56 MSK

Спасибо, памяти более 100Gb, файл положил на RAID0. Считатете awk быстрее sort ?

Сейчас пытается отрабоать sort, но не ясно что он делает:

32249 root       20   0 17.5G 17.2G   868 S 216. 13.6  1h06:14 sort -u file1
32691 root       20   0 17.5G 17.2G   868 R 100. 13.6  2:47.25 sort -u file1                                                                               
32693 root       20   0 17.5G 17.2G   868 S 51.1 13.6  2:38.84 sort -u file1 
32692 root       20   0 17.5G 17.2G   868 S 36.4 13.6  2:33.93 sort -u file1
32695 root       20   0 17.5G 17.2G   868 S  9.0 13.6  2:38.18 sort -u file1
32690 root       20   0 17.5G 17.2G   868 S  2.4 13.6  2:34.58 sort -u file1
32689 root       20   0 17.5G 17.2G   868 S  2.4 13.6  2:38.87 sort -u file1
32694 root       20   0 17.5G 17.2G   868 S  0.5 13.6  2:35.47 sort -u file1

Dr0id
(27.11.14 11:49:12 MSK) автор топика

Ответ на: комментарий от Dr0id 27.11.14 11:49:12 MSK

1h06:14

awk запускай, хотя как он с хешем на миллионы записей работает, заранее не скажу.

~~sdio~~ ★★★★★
(27.11.14 11:53:41 MSK)

Ответ на: комментарий от sdio 27.11.14 11:53:41 MSK

Спасибо, проверю, как он по времени, отпишусь.

Dr0id
(27.11.14 11:55:09 MSK) автор топика

Здесь cat не нужен.

sin_a ★★★★★
(27.11.14 11:56:48 MSK)

Ссылка

Можно попробовать ухищрения, типа

grep ^1 file1 | sort -u 
grep -v ^1 file1 | sort -u

sin_a ★★★★★
(27.11.14 11:59:44 MSK)

Ссылка

Ответ на: комментарий от Dr0id 27.11.14 11:55:09 MSK

Аналог на перле perl -ne 'print if !$a{$_}++'

~~sdio~~ ★★★★★
(27.11.14 12:01:23 MSK)

Ссылка

я бы на python это сделал, но уж больно много файлов, чтобы целиком это в память грузить...

~~odii~~ ★
(27.11.14 12:01:32 MSK)

Ссылка

Это разовая операция?

Если такое нужно часто делать, может проще будет на С написать сортировку/дедупликацию? Зная что там цифры фиксированного размера можно наверное выиграть в скорости у sort/uniq

anonymous
(27.11.14 12:39:24 MSK)

Ответ на: комментарий от anonymous 27.11.14 12:39:24 MSK

Ещё, зная, что там только цифры, можно уложиться в ~14G по памяти.

beastie ★★★★★
(27.11.14 12:54:35 MSK)
Последнее исправление: beastie 27.11.14 12:56:29 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от anonymous 27.11.14 12:39:24 MSK

Да, это на один раз. Постоянно такое делать к счастью не нужно.

Dr0id
(27.11.14 12:55:01 MSK) автор топика

Ссылка

Попробуй так:

sort -S 2G -u < file1 > file_unic.txt

-S, --buffer-size=SIZE
    use SIZE for main memory buffer

joy4eg ★★★★★
(27.11.14 12:55:43 MSK)

Ссылка

посмотреть на ключи --numeric-sort, --temporary-directory, --batch-size, --parallel

anonymous
(27.11.14 12:56:34 MSK)

Ссылка

или разбить на мелкие файлы, отсортировать, а затем воспользоваться --merge

anonymous
(27.11.14 12:59:15 MSK)

Ссылка

455 миллионов? Так это не очень много еще.
Странно, что никто не посоветовал LC_ALL=C.

LC_ALL=C sort -u file.in > file.out
За пару часов сделает, зависит от железа.

~~xtraeft~~ ★★☆☆
(27.11.14 13:03:30 MSK)

Ответ на: комментарий от xtraeft 27.11.14 13:03:30 MSK

Кто там недавно говорил, что многопоточность этим утилитам не нужна? Вот вам наглядный пример.

~~xtraeft~~ ★★☆☆
(27.11.14 13:04:59 MSK)

sort file.txt --parallel=2 | uniq

snaf ★★★★★
(27.11.14 13:24:59 MSK)
Последнее исправление: snaf 27.11.14 13:25:56 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от xtraeft 27.11.14 13:04:59 MSK

Кто там недавно говорил, что многопоточность этим утилитам не нужна? Вот вам наглядный пример.

Удалить дубли из огромного файла (комментарий)

~~sdio~~ ★★★★★
(27.11.14 13:39:41 MSK)

Ответ на: комментарий от sdio 27.11.14 13:39:41 MSK

Меня больше grep интересует. Да и причем тут тот комментарий?

~~xtraeft~~ ★★☆☆
(27.11.14 14:55:36 MSK)
Последнее исправление: xtraeft 27.11.14 14:56:37 MSK (всего исправлений: 1)

Ответ на: комментарий от xtraeft 27.11.14 14:55:36 MSK

многопоточный греп для одного файла? так затык будет в чтении с диска скорее, чем обработка регекспа

~~sdio~~ ★★★★★
(27.11.14 15:29:23 MSK)

Ответ на: комментарий от sdio 27.11.14 15:29:23 MSK

Я читаю из ram или Кеша, ага?

~~xtraeft~~ ★★☆☆
(27.11.14 23:51:20 MSK)

Ответ на: комментарий от xtraeft 27.11.14 23:51:20 MSK

и как ты себе представляешь работу греп в 8 потоков, например?

~~sdio~~ ★★★★★
(28.11.14 00:50:36 MSK)

Ответ на: комментарий от sdio 27.11.14 15:29:23 MSK

Не будет. Обработка регекспов штука затратная. Иначе не надо было бы базы данных придумывать.

Deleted
(28.11.14 12:06:20 MSK)

Ответ на: комментарий от Deleted 28.11.14 12:06:20 MSK

Обработка регекспов штука затратная. Иначе не надо было бы базы данных придумывать.

Ога! Базы данных это только поиск?!

~~sdio~~ ★★★★★
(28.11.14 13:50:42 MSK)

Ответ на: комментарий от sdio 28.11.14 00:50:36 MSK

Вполне себе представляю

~~xtraeft~~ ★★☆☆
(28.11.14 15:04:00 MSK)

Ссылка

Ответ на: комментарий от sdio 28.11.14 13:50:42 MSK

Нет. А почему вы спрашиваете?
Того что регэкспы это не только чтение из файла это не отменяет. Чтоб далеко не ходить, GNU Grep 2.19: быстрее от 10 до 200 раз

Deleted
(28.11.14 16:36:15 MSK)

Ответ на: комментарий от Deleted 28.11.14 16:36:15 MSK

Чтоб далеко не ходить,

Там оптимизировали работу с юникодом. Регекспы тут не причем

~~sdio~~ ★★★★★
(28.11.14 16:38:23 MSK)

Ссылка

Ответ на: комментарий от Dr0id 27.11.14 11:49:12 MSK

Где отчёт, доколе?

zolden ★★★★★
(29.11.14 12:01:43 MSK)

Ссылка

#!/usr/bin/perl -w
use strict;
my $origfile = shift;
my $outfile = "no_dupes_" . $origfile;
my %hTmp;
open (IN, "<$origfile") or die "Couldn't open input file: $!";
open (OUT, ">$outfile") or die "Couldn't open output file: $!";
while (my $sLine = <IN>) {
next if $sLine =~ m/^\s*$/; #remove empty lines
#Without the above, still destroys empty lines except for the first one.
print OUT $sLine unless ($hTmp{$sLine}++);
}
close OUT;
close IN;

# Вариант 2
# use List::MoreUtils "uniq";my @unique = uniq @all;

# Вариант 3
# my @new_list; # массив куда будут помещены "отфильтованные" значения
# my @list; #исходный массив
# my %seen; #хеш для работы
# @new_list = grep {$_ && !$seen{$_}++} @list;

# Вариант 4
# %hash = map { $_ => 1} @src;
# @dst = keys %hash;

Attila ★★
(29.11.14 16:17:16 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Ковыряю хардверный прокси BlueCoat ProxySG 510

General

HP Ultrium 960 data compression

→

если много памяти, то

Похожие темы