Релиз shuf-t 1.2 — аналог shuf для файлов размером с RAM

2

12

Хочу представить публике утилиту shuf-t — аналог shuf (случайная перестановка строк файла) из GNU Core Utilities, предназначенный для работы с текстовыми файлами, размеры которых сравнимы или превышают доступную RAM.

Факты:

Shuf-t был написан с нуля на Qt5. Версия 1.2 перенесена на boost 1.5.8, без Qt. Но QtCreator \ qmake все еще используются для сборки.
Распространяется под лицензией Simplefied BSD.
Командный интерфейс совместим с shuf.
На данный момент доступен только deb пакет. Windows версия будет собрана позднее.
Для тасования строк использован алгоритм Фишера-Йетса

Кому мал shuf?

Основная сфера применения shuf-t — задачи машинного обучения. Конкретнее - подготовка данных для Vowpal Wabbit. Машинное обучение позволяет классифицировать (и не только) результаты на основе исторической выборки. Яркий пример — банковский скоринг (давать/не давать кредит). Чем больше результатов кредитования увидит классификатор — тем он точнее (обычно).

Столкнувшись с данными, объемом превосходящими RAM одного компьютера, экспериментатор вынужден обращаться к кластерам (MapReduce и т.п.) и облакам. Либо воспользоваться системами online machine learning, лучшей из которых сейчас является Vowpal Wabbit. Принцип VW — получил пример, обработал его и забыл. В памяти хранятся только коэффициенты результирующих уравнений, которые подгоняются по получаемым примерам. Т.о. VW может работать на одном ПК с наборами данных неограниченного размера.

У подобных систем есть минусы, и один из них — чувствительность к порядку предъявляемых для обучения классификатора данных. К примеру, если вы отсортируете ваш набор кредиторов по результату, и предъявите VW сначала 10000 неплательщиков, а затем 10000 исправно погасивших долг, то после обучения классификатор будет всех заносить в последнюю группу, т.к. о неплательщиках он давно «забыл». Выходом в данном случае является равномерное размазывание записей о плохих и хороших заемщиках по набору данных. Что и достигается рандомизацией порядка строк в текстовом файле размером в сотню гигабайт.

Как работает?

Очень просто - в RAM считываются не строки файла, а их адреса в нем. Их порядок рандомизируется. В соответствие с новым порядком строк исходный файл считывается в выделенный в RAM буфер и сохраняется, куда пожелал пользователь. Нюансом тут является то, что файл считывается в несколько проходов (т.к. буфер меньше его размера), а offset'ы строк сортируются так, что чтение всегда идет от начала файла к его концу. Т.е. не выполняется seek() адреса меньше текущей позиции чтения.

Скорость работы зависит от числа строк, их размера и меняется нелинейно. 4Гб файл с дефолтным буфером в 1Гб у меня обрабатывается 4 минуты.

>>> Проект на github

Ссылка

←	Alien: Isolation доступна на Linux

Начало тестирования KDevelop 5.0

→

← 1 2 3 4 →

аналог shuf из GNU Core Utilities

написан на Qt5

Klymedy ★★★★★
(27.10.15 21:14:17 MSK)

Ответ на: комментарий от Klymedy 27.10.15 21:14:17 MSK

Я весь софт для личного пользования пишу на Qt, в т.ч. консольные утилиты.

Truf ★
(27.10.15 21:16:20 MSK) автор топика

Ответ на: комментарий от Truf 27.10.15 21:16:20 MSK

это как ?

~~sudopacman~~ ★★★★★
(27.10.15 22:08:09 MSK)

Ответ на: комментарий от sudopacman 27.10.15 22:08:09 MSK

Я может юмора вашего не понимаю?

QtCreator->New project->Qt Console Application. Потом при необходимости ненужные 3 строчки выпиливаются - остается чистый C++ проект. С QtCreator в качестве IDE и qmake для сборки. А вообще, я же написал, что

Версия 1.2 перенесена на boost 1.5.8, без Qt.

Т.к. от Qt там остался только QCommandLineParser.

Truf ★
(27.10.15 22:28:00 MSK) автор топика

Ответ на: комментарий от Truf 27.10.15 22:28:00 MSK

Понятно. Но просто вроде как qt графический тулкит, а тут консольное приложение.

~~sudopacman~~ ★★★★★
(27.10.15 22:33:19 MSK)

Ответ на: комментарий от sudopacman 27.10.15 22:33:19 MSK

вроде как qt графический тулкит

Уже давно нет. Без QtGui или QtOpenGL не будет графики, c одним QtCore вполне можно создавать консольные приложения или демоны.

Автору стоит задуматься о применении более лёгкой библиотеки. Boost-то еще ладно - может там что-то нетривиальное, которое кодить без подобной библиотеки - чистое самоубийство. Другое дело - зачем тащить целый QtCore ради QCommandLineParser?

Pinkbyte ★★★★★
(27.10.15 22:39:45 MSK)
Последнее исправление: Pinkbyte 27.10.15 22:39:57 MSK (всего исправлений: 1)

Ответ на: комментарий от Pinkbyte 27.10.15 22:39:45 MSK

Да нету там уже QtCore. Я QCommandLineParser переделал на вызовы libboost_program_options. В честь этого и релиз v1.2.

Truf ★
(27.10.15 22:41:40 MSK) автор топика

Ответ на: комментарий от Truf 27.10.15 22:41:40 MSK

QCommandLineParser переделал на вызовы libboost_program_options

Пардон, значит не понял я тебя. Ну тогда всё правильно сделал.

Pinkbyte ★★★★★
(27.10.15 22:43:18 MSK)

Ссылка

Ответ на: комментарий от sudopacman 27.10.15 22:33:19 MSK

Хе, я уже не помню, когда последний раз писал GUI приложение на Qt. И без WYSIWYG редактора уже вряд ли GUI соберу.

QtCreator и его toolchain у меня стандартный IDE. Я в него любые C\C++ проекты затаскиваю и спокойно работаю. Тот же Vowpal Wabbit собирается в нем на ура.

Truf ★
(27.10.15 22:44:41 MSK) автор топика

Ссылка

афффтор, ну ты и пейсатель: килобайты кода стройными рядами, покуда хватает глаз, уходят вдаль, к горизонту... а покороче точно нельзя?

1. есть sort -R, который может и подтормаживать, но по идее должен работать с большими файлами

2. а как насчет алгоритма попроще?

типа порезать большой файл на куски, влезающие в память, перетасовать каждый кусок по отдельности, записать в файл, а затем последовательно вычитывать по одной строке из случайно выбираемого одного из этих файлов и писать в результирующий файл?

и еще — как у тебя прога будет работать, если некоторые строки дикого размера, например, вообще в оперативку не помещаются целиком?

www_linux_org_ru ★★★★★
(28.10.15 05:46:55 MSK)

Ответ на: комментарий от www_linux_org_ru 28.10.15 05:46:55 MSK

э-хе-хех

килобайты кода стройными рядами, покуда хватает глаз, уходят вдаль, к горизонту.. а покороче точно нельзя?

Мой код суммарно 33Кб. Я тут глянул - один shuf.c из GNU Core Utils 8.24 весит 17,6Кб. К нему еще 12 header'ов, которые шарятся между многими утилитами. Смею предположить, что shuf-t меньше shuf.

Нафига столько кода? А для обработки 10 параметров командной строки и пятака порожденных ими режимов работы. Все чтобы мимикрировать под командный интерфейс оригинального shuf. Он довольно богатый. Могу рассказать подробнее, но вам вряд ли это нужно.

1. есть sort -R, который может и подтормаживать, но по идее должен работать с большими файлами

sort (кстати, весит 144Кб один .c файл) сортирует по хешам. Хз насколько хорошо. В любом случае скорость его работы удручает. Попробуйте тасануть им 4-х гиговый файл. В моей практике был случай, когда строк было миллиард и тасование занимало больше суток. Сколько будет над такими данными пыхтеть sort? Неделю... месяц..?

2. а как насчет алгоритма попроще?
типа порезать большой файл на куски, влезающие в память, перетасовать каждый кусок по отдельности, записать в файл, а затем последовательно вычитывать по одной строке из случайно выбираемого одного из этих файлов и писать в результирующий файл?

Ну возьмите датасет из примера - 10000 плохих заемщиков, потом 10000 хороших. На какие куски вы будете резать такой файл и сколько проходов с тасованием вам понадобиться, чтобы гарантировать то, что он хорошо перемешан? Логично, что тасовать придется и сами куски и принцип разбиения на них. И не факт, что производительность будет выше shuf-t. Вообще, вопрос алгоритма «попроще» поднимался на kaggle, т.к. у каждого питонщика оказался свой костыль для тасовки больших файлов. Меня более-менее устроила как раз эта эвристика.

А в целом, т.к. речь идет об околонаучных областях применения, я бы не приветствовал подобные костыли.

как у тебя прога будет работать, если некоторые строки дикого размера, например, вообще в оперативку не помещаются целиком?

С такими данными shuf-t работать не сможет. Но трудно представить себе строку больше гигабайта (это дефолтный размер буфера, его можно и увеличить). В машинном обучении используются текстовые файлы, в которых одна строка соответствует одному историческому наблюдению (в 99% случаев). Речь идет о тысячах и миллиардах строк. У меня были максимум по 16Кб каждая. Датасет из строк в гигабайты мне трудно представить, т.к. для статистической достоверности их потребуется минимум пара сотен.

Truf ★
(28.10.15 12:16:41 MSK) автор топика

Ответ на: комментарий от www_linux_org_ru 28.10.15 05:46:55 MSK

2. а как насчет алгоритма попроще?

типа порезать большой файл на куски, влезающие в память, перетасовать каждый кусок по отдельности, записать в файл, а затем последовательно вычитывать по одной строке из случайно выбираемого одного из этих файлов и писать в результирующий файл?

Сори, я не дочитал цитату и контрпример был не верный. Но в любом случае - дерзайте, может догоните sort -R по скорости.

Truf ★
(28.10.15 12:22:52 MSK) автор топика

Ссылка

> Но QtCreator \ qmake все еще используются для сборки.

Люди, которые путают символы «/» и «\», не должны программировать.

poige ★
(28.10.15 12:56:02 MSK)

Ответ на: > Но QtCreator \ qmake все еще используются для сборки. от poige 28.10.15 12:56:02 MSK

Я опять не понял юмора. Что не так?

Truf ★
(28.10.15 12:57:56 MSK) автор топика

Написал программку уровня лабы первого курса, молодец, к тебе вопросов нет. Вопрос к Шоме: что это делает в новостях?

mix_mix ★★★★★
(28.10.15 13:02:26 MSK)

Shuf-t был написан с нуля на Qt5. Версия 1.2 перенесена на boost 1.5.8

А IRL там нужен был всего-лишь патч строчек в 10 к оригинальному shuf

devl547 ★★★★★
(28.10.15 13:23:42 MSK)

Ответ на: комментарий от devl547 28.10.15 13:23:42 MSK

Ну вперед )

Truf ★
(28.10.15 13:30:25 MSK) автор топика

Ответ на: комментарий от mix_mix 28.10.15 13:02:26 MSK

Так оно же про бабки, кредиты тусует, а значит дико интерпрайзная штука!

~~Napilnik~~ ★★★★★
(28.10.15 13:48:15 MSK)

Ссылка

Не понимаю, чего вы взъелись на чувака. Написал полезный софт,обосновал его актуальность. Чувак молодец, а вы его пилите. Не надо так)

aarexer ★
(28.10.15 13:49:42 MSK)

Ответ на: комментарий от devl547 28.10.15 13:23:42 MSK

умиляет, как красноглазые эникеи считают нужным вбросить свое веское слово в теме разработки ПО. от наблюдения за процессом сборки и поглядывания на код с умным видом разработчиками не становятся.

tcler ★
(28.10.15 13:54:21 MSK)

Ответ на: комментарий от aarexer 28.10.15 13:49:42 MSK

Чувак молодец, а вы его пилите.

Суть любого форума же.

WARNING ★★★★
(28.10.15 14:03:47 MSK)

Ссылка

Ответ на: комментарий от Truf 28.10.15 13:30:25 MSK

Давай.

Кстати, рекомендую почитать про sliding mmap и не изобретать велосипеды.

devl547 ★★★★★
(28.10.15 14:07:13 MSK)

Ответ на: комментарий от tcler 28.10.15 13:54:21 MSK

Умиляет когда школьники фигачат здоровенные велосипеды вместо того, чтоб зайти в гугл.

devl547 ★★★★★
(28.10.15 14:08:12 MSK)

банковский скоринг (давать/не давать кредит)

данными, объемом превосходящими RAM одного компьютера

Спуфинг зашел что ли?

buddhist ★★★★★
(28.10.15 14:10:22 MSK)

Ссылка

Ответ на: комментарий от devl547 28.10.15 14:08:12 MSK

Умиляет когда школьники фигачат здоровенные велосипеды вместо того, чтоб зайти в гугл.

Так они стают взрослыми мужчинами, в отличие от девочек, которые жить не могут без гугля ^_^.

anonymous
(28.10.15 14:11:22 MSK)

Ссылка

Ответ на: комментарий от devl547 28.10.15 14:08:12 MSK

Вообще-то я не школьник и давно уже не студент, к сожалению. И я не думаю, что mmap даст выигрыш в производительности. Если вы быстренько накидаете свой shuf для 10Gb файла, мы сможем померятся скоростью тасовки.

Truf ★
(28.10.15 14:17:23 MSK) автор топика

Ответ на: комментарий от Truf 28.10.15 14:17:23 MSK

свой shuf для 10Gb файла

Где хранится исходный файл и куда писать результирующий? И какое у нас ограничение по размеру ОЗУ?

devl547 ★★★★★
(28.10.15 14:28:34 MSK)

Ответ на: комментарий от Truf 28.10.15 12:57:56 MSK

Бэкслеш (\) и слеш (/) совершенно разные символы и использовать вместо второго первый - нехорошо :)

Deleted
(28.10.15 14:34:49 MSK)

Ответ на: комментарий от devl547 28.10.15 14:28:34 MSK

Храниться на SSD и пишется на SSD. RAM не больше 4Gb.

Truf ★
(28.10.15 14:35:28 MSK) автор топика

Ответ на: комментарий от Truf 28.10.15 14:35:28 MSK

Формат исходного файла?

devl547 ★★★★★
(28.10.15 14:41:26 MSK)

Ответ на: комментарий от Truf 27.10.15 21:16:20 MSK

ЛОМАЮЩИЕ НОВОСТИ

обнаружен эталон говноеда.

Lincor ☆
(28.10.15 14:43:28 MSK)

Ответ на: комментарий от Deleted 28.10.15 14:34:49 MSK

Если уж на то пошло, бэкслеш вообще нельзя использовать в тексте на естественном языке. Это символ чисто синтетический и изобретён был для того, чтобы не тащить в ограниченное пространство таблицы ASCII символы ∧ и ∨.

Centaur ★
(28.10.15 14:48:50 MSK)

Ответ на: комментарий от devl547 28.10.15 14:41:26 MSK

Давай возьмем train.csv из датасета компании Criteo с их конкурса на Kaggle. Вот страничка конкурса. Вот линк на датасет. Датасет 4.3Gb в gzip. Думаю, train.csv в нем должен превышать 6Gb. У меня качаться 40 мин будет. Регистрации там нет - просят указать любое имя.

Truf ★
(28.10.15 14:49:23 MSK) автор топика

Ответ на: комментарий от Centaur 28.10.15 14:48:50 MSK

Я учту на будущее. Буду использовать &

Truf ★
(28.10.15 14:54:33 MSK) автор топика

Ссылка

Ответ на: комментарий от Centaur 28.10.15 14:48:50 MSK

чтобы не тащить в ограниченное пространство таблицы ASCII символы ∧ и ∨.

Будто этот хлам из Алгола не синтетический.

devl547 ★★★★★
(28.10.15 14:54:41 MSK)

Ссылка

уважаемый Вы все ещё в нокие? зачем вам машинное обучение?

anonymous
(28.10.15 14:54:42 MSK)

Ответ на: комментарий от Truf 28.10.15 14:49:23 MSK

Ограничиваем память до 4 гигов или меньше

Датасет 4.3Gb в gzip.

Читаем с SSD, шаффлим в нём строчки и пишем обратно на SSD.

Всё так?

4Гб файл с дефолтным буфером в 1Гб у меня обрабатывается 4 минуты.

Ок, учтём для сравнения

devl547 ★★★★★
(28.10.15 14:58:19 MSK)

Ответ на: комментарий от anonymous 28.10.15 14:54:42 MSK

уже 1.5 года как нет. Хочу заниматься МО - нравится мне.

Truf ★
(28.10.15 14:59:27 MSK) автор топика

Ссылка

Ответ на: комментарий от devl547 28.10.15 14:58:19 MSK

Размер train.csv будет ясен, когда я его скачаю и распакую ) А так вроде все верно.

Truf ★
(28.10.15 15:00:34 MSK) автор топика

Ссылка

Ответ на: комментарий от devl547 28.10.15 14:58:19 MSK

Это оказался train.txt в формате tsv на 10.4Gb и 45840617 строк.

Truf ★
(28.10.15 15:44:28 MSK) автор топика

Раз написали, значит кому-то нужно. Хотя например чем дамп файлы баз данных открывать... самое оно. Буду знать.

~~weare~~ ★★
(28.10.15 15:46:33 MSK)

Ссылка

Ответ на: комментарий от Truf 28.10.15 15:44:28 MSK

Хорошо, вечером погоняю шаффл на этом файле.
Есть пара мыслей, как это сделать быстро не изобретая велосипедом.

devl547 ★★★★★
(28.10.15 16:25:30 MSK)

Ссылка

Ответ на: комментарий от devl547 28.10.15 14:58:19 MSK

У меня получилось следующее: Буфер 1Гб (дефолтный) - 21.37 мин; Буфер 2Гб - 13.55 мин

http://pastebin.com/46SqcHMC

Следует отметить, что программа на почти 46 млн. строк дополнительно берет ~0.8Гб памяти на метаданные (offset'ы строки в исходном файле и файле результате). Так что пиковое потребление RAM было 1.7 и 2.8 Gb соответственно.

С большим буфером пробовать пока не буду - подожду результатов mmap().

Конфигурация у меня: Kubuntu 15.10, 16Gb RAM, 1Tb SSD, Intel i7 2.9GHz 4-core.

Truf ★
(28.10.15 16:31:10 MSK) автор топика