Выбрать n случайных строк из большого файла

 shuf -n 1000 input

Гуглом пользоваться не учили?

derlafff ★★★★★
(28.10.14 16:56:27 MSK)
Последнее исправление: derlafff 28.10.14 16:57:11 MSK (всего исправлений: 2)

Ответ на: комментарий от derlafff 28.10.14 16:56:27 MSK

Спасибо, но это очень медленные способы. Первому даже LC_ALL=C не поможет.

~~xtraeft~~ ★★☆☆
(28.10.14 16:58:04 MSK) автор топика

Ссылка

Ответ на: комментарий от derlafff 28.10.14 16:56:27 MSK

shuf: read error: Cannot allocate memory
:)

~~xtraeft~~ ★★☆☆
(28.10.14 16:59:03 MSK) автор топика

Как быстрее всего

на С написать

anonymous
(28.10.14 17:00:07 MSK)

Ответ на: комментарий от xtraeft 28.10.14 16:59:03 MSK

Небось в соседних тредах кричишь, что 64 бита — ненужно?

Что за система?

Спасибо, но это очень медленные способы.

shuf быстрый.

derlafff ★★★★★
(28.10.14 17:00:25 MSK)

Ответ на: комментарий от derlafff 28.10.14 17:00:25 MSK

Небось в соседних тредах кричишь, что 64 бита — ненужно?

Нет, у меня везде 64битные системы и железо.

Что за система?

Вдс с убунтой и гигом памяти. Файл, из которого делаю выборку, имеет размер ~2 Гб.

shuf быстрый.

Ну и даже если память есть свободная, оно все равно тормозит. Или я хочу невозможного? Проверил на рабочем компьютере:

time shuf -n 1000 ADULT.OCTOBER
real	1m24.717s

~~xtraeft~~ ★★☆☆
(28.10.14 17:02:51 MSK) автор топика

Ответ на: комментарий от anonymous 28.10.14 17:00:07 MSK

Вот я и надеялся, вдруг уже кто-то написал подобное.

~~xtraeft~~ ★★☆☆
(28.10.14 17:03:21 MSK) автор топика

Ссылка

#!/bin/sh
RCOUNT=`wc -l "$1" | cut -f1 -d" "`
let "number = $RANDOM % $RCOUNT"
sed -n ${number}p "$1"

$ ./rnd_sr.sh /usr/src/linux/.config 
#
$ ./rnd_sr.sh /usr/src/linux/.config 
CONFIG_CONTEXT_SWITCH_TRACER=y
$ ./rnd_sr.sh /usr/src/linux/.config 
# CONFIG_HSI is not set
$ ./rnd_sr.sh /usr/src/linux/.config 
CONFIG_AUTOFS4_FS=y
$ ./rnd_sr.sh /usr/src/linux/.config 
CONFIG_NET_SCHED=y
$ ./rnd_sr.sh /usr/src/linux/.config 
CONFIG_PCI_MMCONFIG=y

kostik87 ★★★★★
(28.10.14 17:03:53 MSK)

Ответ на: комментарий от xtraeft 28.10.14 17:02:51 MSK

На SO пишут, что shuf линейный, то бишь О(n). Если еще (чуть) большей скорости, напиши себе затычку на сишечке.

derlafff ★★★★★
(28.10.14 17:04:51 MSK)

Ответ на: комментарий от kostik87 28.10.14 17:03:53 MSK

Я ждал этого комментария. Знаешь, как оно тормозит?

~~xtraeft~~ ★★☆☆
(28.10.14 17:05:13 MSK) автор топика

Ответ на: комментарий от derlafff 28.10.14 17:04:51 MSK

shuf впринципе подошел бы по скорости, но он видимо весь файл в память читает.
А памяти у меня меньше, чем нужно.

~~xtraeft~~ ★★☆☆
(28.10.14 17:06:03 MSK) автор топика

Ссылка

Ответ на: комментарий от xtraeft 28.10.14 17:05:13 MSK

Ты хотел на чистом баше.

kostik87 ★★★★★
(28.10.14 17:06:14 MSK)

Ссылка

1. Рандом на Х чисел
2. open -> seek (X1) -> read -> [seek(X2) -> read, ...] -> close
3. ???
4. PROFIT!!!

P.S. Как найти начало и конец строки после read, думаю, задача тривиальная для сишнека.

~~gh0stwizard~~ ★★★★★
(28.10.14 17:06:41 MSK)

Ответ на: комментарий от gh0stwizard 28.10.14 17:06:41 MSK

Ага, как-то так, но я не сишник.
Не хочешь такую утилиту за деньги написать?

~~xtraeft~~ ★★☆☆
(28.10.14 17:07:32 MSK) автор топика

Ответ на: комментарий от xtraeft 28.10.14 17:07:32 MSK

Давай напишу, лол

derlafff ★★★★★
(28.10.14 17:10:42 MSK)

Ответ на: комментарий от derlafff 28.10.14 17:10:42 MSK

Давай.
1. Имя файла и количество строк, которые нужно выбрать, передавать через argv ($1 $2).
2. Должно работать при размере файла большем, чем есть свободной памяти.
3. Кодировка файла utf-8.
4. Открытые сорцы, лицензия любая.

Цена?

Можешь сразу на ник@гмейл писать

~~xtraeft~~ ★★☆☆
(28.10.14 17:14:09 MSK) автор топика
Последнее исправление: xtraeft 28.10.14 17:14:33 MSK (всего исправлений: 1)

Ответ на: комментарий от kostik87 28.10.14 17:03:53 MSK

Лучше уж тогда head / tail заюзать для выборки

YAR ★★★★★
(28.10.14 17:37:27 MSK)

Ответ на: комментарий от YAR 28.10.14 17:37:27 MSK

Медленно.

~~xtraeft~~ ★★☆☆
(28.10.14 17:38:53 MSK) автор топика

head/tail со случайными номерами строк.

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 17:52:16 MSK)

Ответ на: комментарий от xtraeft 28.10.14 17:14:09 MSK

Учитывая то, что конец строки — '\n', даже мой вариант будет работать. Нуно?

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 17:53:44 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 17:52:16 MSK

Еще один.

~~xtraeft~~ ★★☆☆
(28.10.14 17:53:50 MSK) автор топика

Ссылка

Ответ на: комментарий от Eddy_Em 28.10.14 17:53:44 MSK

Учитывая то, что конец строки — '\n', даже мой вариант будет работать. Нуно?

Через head/tail? Нет.
Можешь показать пример, а я сделаю бенчмарк и сам все поймешь.

Я такой способ раньше юзал, но скорость не устраивает совсем.

~~xtraeft~~ ★★☆☆
(28.10.14 17:54:30 MSK) автор топика
Последнее исправление: xtraeft 28.10.14 17:56:15 MSK (всего исправлений: 1)

Ответ на: комментарий от xtraeft 28.10.14 17:38:53 MSK

Таки да, даже медленнее оказалось. sed молотит данные у меня на скорости 33 МБ/сек, head/tail - 25-27. Зато mawk - на 70. Т.е., в целом, если запихнуть в него массив рандомных чисел и печатать строки, соответствующие номеру, то за один проход можно получить нужный список.

YAR ★★★★★
(28.10.14 17:59:35 MSK)
Последнее исправление: YAR 28.10.14 18:03:21 MSK (всего исправлений: 1)

Ответ на: комментарий от xtraeft 28.10.14 17:54:30 MSK

Нет, на сишечке.

1. Делаем случайный lseek
2. Ищем первое '\n'
3. Считываем строчку и показываем на экране.

Повторяем нужное количество раз. Почти то же самое у меня в самопальной БД: в одном файле хранятся позиции записей с шагом в неделю, в другом — сами записи. Процедура поиска проста: сначала в первом файле ищем примерную позицию, потом делаем seek и ищем уже точную позицию запрашиваемой даты. Шустро-просто. Работает с файлами любых размеров. Ради прикола тестил на синтетическом пятигиговом.

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 18:02:13 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 18:02:13 MSK

derlafff уже делает.
Правда обещал минут за 20, но видимо не успел.
Если не сделает - попрошу тебя, а то мне вечером уже надо юзать.

~~xtraeft~~ ★★☆☆
(28.10.14 18:13:42 MSK) автор топика

Ответ на: комментарий от xtraeft 28.10.14 18:13:42 MSK

минут за 20

Ну, смотря что за ТЗ. А то и дольше уйдет, если нужно дофига параметров командной строки брать. А если тупо 2 (и материться, если их не 2), то да — 20-30 минут, наверное.

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 18:15:27 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 18:15:27 MSK

Ну, смотря что за ТЗ

Да вот оно все Выбрать n случайных строк из большого файла (комментарий)

А если тупо 2

Да, только 2. Файл-источник и количество строк.

~~xtraeft~~ ★★☆☆
(28.10.14 18:22:51 MSK) автор топика

Ответ на: комментарий от xtraeft 28.10.14 18:22:51 MSK

Свисти, если что. Я домой пошел. Если мелкая не сильно настырно будет заставлять с нею играть, то накалякаю что-нибудь.

Поддержка 32-битного хлама нужна?

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 18:25:33 MSK)

Ответ на: комментарий от YAR 28.10.14 17:59:35 MSK

dd if=testfile5 bs=1k skip=$(($RANDOM$RANDOM$RANDOM % $(du testfile5 | cut -f1))) | head | tail -n 1

Такой себе псевдорандом :)

// Серьезно не воспринимать )

YAR ★★★★★
(28.10.14 18:26:05 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 18:25:33 MSK

Поддержка 32-битного хлама нужна?

С ней будет сильно медленнее? Вроде не нужна, но теоретически может попасться такая виртуалка. Если медленнее или дольше писать, то поддержка 32 бит не нужна.

derlafff сказал сегодня закончит.

Впринципе, можешь свой вариант написать. Заплачу обоим, заодно посмотрим чей вариант работает быстрее :)

~~xtraeft~~ ★★☆☆
(28.10.14 18:27:46 MSK) автор топика

Ответ на: комментарий от YAR 28.10.14 18:26:05 MSK

real 0m30.874s

хаха, быстрее чем shuf

~~xtraeft~~ ★★☆☆
(28.10.14 18:30:48 MSK) автор топика

Ответ на: комментарий от xtraeft 28.10.14 18:30:48 MSK

В целом, если более грамотно сделать обработку данных от dd (ибо сейчас часть строк может никогда не попасть в вывод) и убрать ту цепочку $RANDOM'ов, то вполне боевой вариант. Но /me обедает, потому лень.

YAR ★★★★★
(28.10.14 18:33:05 MSK)

Ответ на: комментарий от YAR 28.10.14 18:26:05 MSK

real 0m8.580s

Ого, это на виртуалке с 1Гб памяти и ssd. И память не жрет.
Отличное решение, без шуток.
С меня пиво, если никто не побьет твой результат (кроме сишников).

~~xtraeft~~ ★★☆☆
(28.10.14 18:33:19 MSK) автор топика
Последнее исправление: xtraeft 28.10.14 18:33:36 MSK (всего исправлений: 1)

http://en.wikipedia.org/wiki/Reservoir_sampling, тред дальше заголовка не читал.

anonymous
(28.10.14 18:39:38 MSK)

Ответ на: комментарий от xtraeft 28.10.14 18:27:46 MSK

С ней будет сильно медленнее?

Не сильно. И только на 32-битных.

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 18:46:59 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 18:46:59 MSK

Тогда пиши на ник @ гмейл, если не передумал.

~~xtraeft~~ ★★☆☆
(28.10.14 18:48:29 MSK) автор топика

Ответ на: комментарий от YAR 28.10.14 18:33:05 MSK

Оказывается твой вариант быстро работает только на маленьком количесте выбираемых строк (до 10 тысяч).

~~xtraeft~~ ★★☆☆
(28.10.14 19:12:10 MSK) автор топика

Ответ на: комментарий от Eddy_Em 28.10.14 18:02:13 MSK

1. Делаем случайный lseek

Я так сделал на сишечке, медленно. Нормальная генерация случайных и последовательный проход всего файла быстрее

derlafff ★★★★★
(28.10.14 19:24:54 MSK)

Ответ на: комментарий от xtraeft 28.10.14 18:48:29 MSK

Вариант 1 (ленивый). Будет медленным, наверное.

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 19:29:55 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 19:29:55 MSK

wc -l test
1190656 test

time ./randline test 10000 
(многабукафф)
real	0m0.435s
user	0m0.006s
sys	0m0.036s

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 19:32:28 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 28.10.14 19:29:55 MSK

time ./eddy keys.txt 10000 > res.txt

real    0m0.869s
user    0m0.076s
sys     0m0.279s

Ого, зачет. Очень быстро. Только там \n куда то пропадает, если в файл перенаправлять выхлоп:

wc -l res.txt ; sort -u res.txt |wc -l
10000 res.txt
4

~~xtraeft~~ ★★☆☆
(28.10.14 19:32:32 MSK) автор топика
Последнее исправление: xtraeft 28.10.14 19:34:26 MSK (всего исправлений: 3)

Ответ на: комментарий от derlafff 28.10.14 19:24:54 MSK

Если ТСу надо, попробую еще с lseek, пусть сначала простой вариант с mmap проверит. По-моему, этого достаточно. Тем паче, что всю грязную работу ведро на себя берет.

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 19:36:52 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 19:36:52 MSK

По-моему, этого достаточно.

Достаточно, более чем (100 000 строк выбирает за 7 секунд, миллион за 2 минуты). Только бы ту проблему пофиксить, о которой я выше писал.

~~xtraeft~~ ★★☆☆
(28.10.14 19:37:32 MSK) автор топика
Последнее исправление: xtraeft 28.10.14 19:38:59 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от xtraeft 28.10.14 19:32:32 MSK

Это из-за буферизации. Пиши в строке 113:

write(1, "\n", 1);

Я думаю, с явным указанием lseek будет медленнее, т.к. придется вручную читать какое-то количество данных в буфер и вырывать строчку. Если буфер взять слишком маленьким, придется дочитывать, если же буфер взять слишком большим, то процесс замедлится.

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 19:38:46 MSK)
Последнее исправление: Eddy_Em 28.10.14 19:39:59 MSK (всего исправлений: 1)

Ответ на: комментарий от Eddy_Em 28.10.14 19:38:46 MSK

Это из-за буферизации. Пиши в строке 113:

Спасибо, помогло. Работает сильно быстрее, чем у derlafff.
Оставь свои контакты-реквизиты и сумму, заплачу.

~~xtraeft~~ ★★☆☆
(28.10.14 19:41:44 MSK) автор топика
Последнее исправление: xtraeft 28.10.14 19:44:22 MSK (всего исправлений: 1)

Ответ на: комментарий от xtraeft 28.10.14 19:41:44 MSK

У меня только paypal (от остальных "электронных денег" толку 0). Годится?

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 19:44:37 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 19:44:37 MSK

Да. Сумму и адрес можешь скинуть мне на почту (ник @ гмейл).

~~xtraeft~~ ★★☆☆
(28.10.14 19:45:36 MSK) автор топика

Ответ на: комментарий от xtraeft 28.10.14 19:12:10 MSK

Остальное, в целом, зависит от скорости работы цикла-обвязки вокруг той строчки. А несколько рандомных заданий обработать - да, не получится.

YAR ★★★★★
(28.10.14 19:45:45 MSK)

Ссылка

Ответ на: комментарий от xtraeft 28.10.14 19:45:36 MSK

Получил. Спасибо!

~~Eddy_Em~~ ☆☆☆☆☆
(28.10.14 20:27:40 MSK)

Ответ на: комментарий от Eddy_Em 28.10.14 20:27:40 MSK

Это тебе спасибо, сейчас весь процесс занимает 2 минуты вместо 20-60.

~~xtraeft~~ ★★☆☆
(28.10.14 20:28:28 MSK) автор топика

Ссылка

Похожие темы