krep 2.0.0

3

2

11 февраля состоялся выпуск 2.0.0 krep — высокопроизводительной, многопоточной, SIMD-оптимизированной консольной утилиты для поиска строк.

Основные особенности:

В зависимости от типа шаблонов для оптимальной производительности используются алгоритмы Бойера—Мура—Хорспула, Кнута—Морриса—Пратта или Ахо—Корасик.
Использование отображаемого на память файла при обработке больших файлов.
Автоматическое распределение поиска по доступным ядрам процессора.
SIMD-оптимизация с поддержкой SSE4.2, AVX2 и NEON.

Утилита написана на языке C и распространяется по лицензии BSD-2.

Изменения:

значительно улучшена производительность многопоточной обработки пути в функции search_file;
добавлен скрипт test/benchmark_krep_vs_rg.sh для сравнения krep и ripgrep;
исправлена ошибка рекурсивного пропуска минимизированных ресурсов (вида .min.*);
улучшено тестирование.

>>> Подробности на GitHub

Ссылка

←	7-Zip 26.00

Vim 9.2 с экспериментальной поддержкой Wayland

→

используются алгоритмы Бойера—Мура—Хорспула, Кнута—Морриса—Пратта или Ахо—Корасик.

Как много незнакомых слов.

Есть какие-нибудь примеры использования, показывающие, чем конкретно оно лучше grep, rg, ag и т. д.

CrX ★★★★★
(14.02.26 18:26:17 MSK)
Последнее исправление: CrX 14.02.26 18:28:35 MSK (всего исправлений: 1)

Ответ на: комментарий от CrX 14.02.26 18:26:17 MSK

Щас тебе понаставят. :)

dataman ★★★★★
(14.02.26 18:28:41 MSK) автор топика

Ответ на: комментарий от dataman 14.02.26 18:28:41 MSK

Да пускай ставят. Я не стыжусь незнания. Стыдно, когда не хочешь учиться или узнавать, а не когда не знаешь :)

(Я там во втором абзаце вопросительный знак в конце забыл, не успел поправить, но это вопрос. Чисто в производительности дело, или есть ещё какие-то фичи, скрытые за всем этим?)

CrX ★★★★★
(14.02.26 18:30:15 MSK)
Последнее исправление: CrX 14.02.26 18:34:41 MSK (всего исправлений: 1)

Ответ на: комментарий от CrX 14.02.26 18:30:15 MSK

Тогда пригодится https://smart-tool.github.io/smart/.
Или нет.

dataman ★★★★★
(14.02.26 18:46:21 MSK) автор топика

Ссылка

Ну тут возникает вопрос: насколько все эти крутые улучшения релевантны для реального мира. Потому что при замене grep-а на krep вокруг всё равно останутся всё те же текстовые утилиты. И ускорение вдвое в поиске сожрётся медленностью какого-нибудь, условно говоря, sort-а, в том же конвеере обработки данных.

Smacker ★★★★★
(14.02.26 18:52:08 MSK)

Ответ на: комментарий от CrX 14.02.26 18:26:17 MSK

чем конкретно оно лучше grep, rg, ag и т. д.

Я ей особо не пользуюсь, но вот чем хуже: что-то не очень хорошо с не-ASCII-поиском с некоторыми опциями.

dataman ★★★★★
(14.02.26 18:53:09 MSK) автор топика

Ответ на: комментарий от Smacker 14.02.26 18:52:08 MSK

Ну тут возникает вопрос: насколько все эти крутые улучшения релевантны для реального мира. Потому что при замене grep-а на krep вокруг всё равно останутся всё те же текстовые утилиты. И ускорение вдвое в поиске сожрётся медленностью какого-нибудь, условно говоря, sort-а, в том же конвеере обработки данных.

Ну вообще есть немало юзкейсов, где остальные утилиты и не нужны, или же сортировка занимает буквально меньше секунды. А поиск до этого — скажем 50 секунд одной утилитой и 15 другой. Даже просто поиск по гигабайтам логов, там просто надо «отгрепать», а сортировать особо ничего и не требуется, оно и так отсортировано, или на вход сортировщику из всех гигабайт идут пара десятков строк, и он отрабатывает моментально.

CrX ★★★★★
(14.02.26 18:55:36 MSK)

По зависимостям тянет половину KDE?

scanner
(14.02.26 19:10:50 MSK)

Ссылка

Ответ на: комментарий от CrX 14.02.26 18:26:17 MSK

Aho-Karasique. Используется алгоритм с развертыванием конечного автомата из пакетов и карпов (в пакете) для словаря. Все понятно же.

DzenPython ★
(14.02.26 19:22:05 MSK)

Ответ на: комментарий от Smacker 14.02.26 18:52:08 MSK

И ускорение вдвое в поиске сожрётся медленностью какого-нибудь, условно говоря, sort-а

там Бернштейн как раз на днях выпустил новую версию своего djbsort))

Lrrr ★★★★★
(14.02.26 19:54:28 MSK)

Ответ на: комментарий от CrX 14.02.26 18:55:36 MSK

поиск по гигабайтам логов, там просто надо

сдаётся мне что современные логи (потенциально) таких объёмов сразу загоняются в базы и уже там происходят ротация/сжатие/поиск/фильтры

то есть из ком.строки: `krep «жезеляко» 100Gb.log` это заявка на увольнение кого-то там, возможно админа

MKuznetsov ★★★★★
(14.02.26 19:58:48 MSK)

Ответ на: комментарий от MKuznetsov 14.02.26 19:58:48 MSK

Логи бывают разными. Не всегда они пишутся софтом, написанным админом. Не всегда их грепает именно админ (если не считать админов локалхоста). Да и текстовый формат прост и подходящ во многих случаях. Грепать может раз в год надо, а БД городить и держать запущенной постоянно.

Ну и с логами это просто самый простой пример — это те самые данные, которых может быть много, и которые при этом редко требуют много утилит в конвеере, просто поиск.

Загонять какой-нибудь access.log nginx’овский, по которому раз в год может быть нужно что-то загрепать, в БД — скорее это может быть заявкой на увольнение за оверинжениринг.

CrX ★★★★★
(14.02.26 20:04:51 MSK)

Что только не придумают, лишь бы Loki/Logstash/Greylog не использовать.

pekmop1024 ★★★★★
(14.02.26 20:21:08 MSK)

Ответ на: комментарий от MKuznetsov 14.02.26 19:58:48 MSK

то есть из ком.строки: krep «жезеляко» 100Gb.log это заявка на увольнение кого-то там, возможно админа

Так в общем и есть.

pekmop1024 ★★★★★
(14.02.26 20:35:28 MSK)

Ссылка

Ответ на: комментарий от CrX 14.02.26 20:04:51 MSK

Загонять какой-нибудь access.log nginx’овский, по которому раз в год может быть нужно что-то загрепать, в БД — скорее это может быть заявкой на увольнение за оверинжениринг.

Оверинжинириг - писать грепалку с SIMD-оптимизациями, а пихать логи в центральное хранилище принято со времен syslog’а, который старше большинства местных комментаторов.

pekmop1024 ★★★★★
(14.02.26 20:37:06 MSK)

Ссылка

Основной особенностью должно быть включение в состав KDE.

skyman ★★★★★
(14.02.26 21:23:38 MSK)

Ссылка

высокопроизводительной многопоточной ... оптимизированной ... утилиты

Звучит как что-то стрёмное на JS или на каких-нибудь zig или go... Но нет, хороший софт на C.

Shadow ★★★★★
(14.02.26 22:12:26 MSK)

Ответ на: комментарий от Lrrr 14.02.26 19:54:28 MSK

Ну хоть qmail больше не форсит...

Shadow ★★★★★
(14.02.26 22:14:15 MSK)

Ссылка

день добрый!
прочитал и, да, не хватило «чуть более» развернутого описания.
использую для локального/контекстного поиска recoll (очень старую версию, переделанную под себя), результаты выдает мгновенно (как и ожидается). хотелось бы понять плюс/минус, как оно соотноситься (без обращения на gui/console).

спасибо

sunjob ★★★★★
(14.02.26 22:29:29 MSK)

Нейминг криповый ). Я бы назвал rrg (ripripgrep)

ergo ★★★★
(14.02.26 22:36:00 MSK)

Ссылка

Ответ на: комментарий от sunjob 14.02.26 22:29:29 MSK

прочитал и, да, не хватило «чуть более» развернутого описания.

судя по описанию, оно использует не регексы, а самые базовые алгоритмы поиска строки в тексте. Это сильно упрощает реализацию, устраняя пространство для возможных багов, уязвимостей и зависимостей, ну и ускоряет тоже, благодаря отказу от регексов.

Я вот не помню, грепал ли когда-нибудь вообще регексы. И на самом деле хотел написать подобную штуку, но похоже все написано до нас.

Lrrr ★★★★★
(14.02.26 23:47:35 MSK)

Почему нет поддержки GPU и MPI? Кто в здравом уме будет использовать утилиту для поиска строк, которая не масштабируется на 4096 узлов?

buddhist ★★★★★
(15.02.26 02:32:47 MSK)

Ссылка

Ответ на: комментарий от Smacker 14.02.26 18:52:08 MSK

для реального мира.

Такой нейминг позволяет использовать grep в Gnome и krep а KDE.

Saakx ★
(15.02.26 02:47:24 MSK)

Зачем оно целый ман вывело при ошибке? За что не люблю новомодный хипстерский софт, так это за то, что он ведет себя по-вендовому.

urxvt ★★★★★
(15.02.26 02:50:30 MSK)

Ответ на: комментарий от Saakx 15.02.26 02:47:24 MSK

И xrep в XFCE...

Smacker ★★★★★
(15.02.26 02:50:34 MSK)

Ссылка

Ответ на: комментарий от Lrrr 14.02.26 23:47:35 MSK

Я вот не помню, грепал ли когда-нибудь вообще регексы

То есть ты грепал не регэкспы, но про ключ -F не слышал? Я вот grep без него не использую за редкими исключениями.

firkax ★★★★★
(15.02.26 04:28:21 MSK)

Ответ на: комментарий от urxvt 15.02.26 02:50:30 MSK

Да, ещё гит так же делает, осуждаем.

firkax ★★★★★
(15.02.26 04:30:25 MSK)

Ссылка

В 2026 уже пора научиться делать подобные утилиты в качестве либы (library first), а к ней уже cli/tui/gui frontend и API для разных языков.

yvv1 ★
(15.02.26 08:06:28 MSK)

Ответ на: комментарий от yvv1 15.02.26 08:06:28 MSK

Во FreeBSD уже.

urxvt ★★★★★
(15.02.26 12:54:59 MSK)

Ответ на: комментарий от dataman 14.02.26 18:53:09 MSK

Я тоже могу сказать, чем хуже.

Ее нет в основных репах, в отличие от того же ripgrep. На этом же измерения можно и закончить.

MoldAndLimeHoney ★★
(15.02.26 12:57:33 MSK)

Ссылка

Ответ на: комментарий от CrX 14.02.26 18:26:17 MSK

Алгоритм Бойера-Мура поиска подстроки в строке - классика программирования.

LongLiveUbuntu ★★★★★
(15.02.26 13:31:23 MSK)

Ссылка

полюбопытствовал как именно сделана «SIMD-оптимизация с поддержкой SSE4.2, AVX2 и NEON.» и теперь буду ругаться :

1. код кроме автора опуса разбирать никто не будет. То есть проект мёртво-рожден. Функции по 900 строк это сильно

2. оптимизация выполнена на уровне #include <immintrin.h>, похоже что откуда-то списанного. Вроде бы и всё, может ещё как-то но см. п.1, код-простыня

3. нахренато впихан «colored output» но с захаркоженными цветами и esc-последовательностями.

MKuznetsov ★★★★★
(15.02.26 17:53:31 MSK)

Ответ на: комментарий от urxvt 15.02.26 12:54:59 MSK

Во FreeBSD уже.

Что-то в портах не нахожу.

iron ★★★★★
(15.02.26 20:34:41 MSK)

Ответ на: комментарий от firkax 15.02.26 04:28:21 MSK

я имею ввиду, сделать штуку с максимально простым и коротким кодом, в котором нет ничего лишнего. Сколько там эта префикс-функция для Кнута и Морриса с Праттом занимает, строчек 20 наверно максимум. Я ее по памяти могу написать. (ну ладно, сейчас уже не могу, но раньше мог). И работает за детерминированное время.

А вообще сейчас я пользуюсь ugrep, потому что там можно написать конфиг и еще и индекс построить. В конфиге у меня есть --fixed-strings, да.

Lrrr ★★★★★
(15.02.26 20:47:19 MSK)

Ссылка

Ответ на: комментарий от iron 15.02.26 20:34:41 MSK

Я имел ввиду

В 2026 уже пора научиться делать подобные утилиты в качестве либы (library first), а к ней уже cli/tui/gui frontend и API для разных языков.

$ ldd /usr/bin/grep 
/usr/bin/grep:
	libregex.so.1 => /usr/lib/libregex.so.1 (0x68ad6fce000)
...

urxvt ★★★★★
(15.02.26 21:02:59 MSK)

Ссылка

Чем же ответит ripgrep?

zezic ★★★★
(16.02.26 06:48:21 MSK)

Ссылка

Ответ на: комментарий от Shadow 14.02.26 22:12:26 MSK

Звучит как что-то стрёмное на JS или на каких-нибудь zig или go…

Ставить в один ряд JS, Zig и Go. Звучит, как провокация.

sarumeister ★
(16.02.26 06:54:40 MSK)

Ответ на: комментарий от MKuznetsov 15.02.26 17:53:31 MSK

оптимизация выполнена на уровне

Обычные интринсики.

sarumeister ★
(16.02.26 06:56:41 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 14.02.26 19:58:48 MSK

сдаётся мне что современные логи (потенциально) таких объёмов сразу загоняются в базы и уже там происходят ротация/сжатие/поиск/фильтры

1С попытался. Греп по логу блокирует транзакции на запись и подвешивает текущую работу.

monk ★★★★★
(16.02.26 07:24:04 MSK)

Ссылка

Ответ на: комментарий от sarumeister 16.02.26 06:54:40 MSK

Регулярно натыкаюсь на упоминания диких цифр по VM для программ на go. Сам лично был в ужасе от того, как ловко сжирает всю память obfs4.

Shadow ★★★★★
(16.02.26 08:46:52 MSK)
Последнее исправление: Shadow 16.02.26 08:50:52 MSK (всего исправлений: 2)

Ответ на: комментарий от Shadow 16.02.26 08:46:52 MSK

диких цифр по VM для программ на go

У зига синтаксис объективно лучше, чем у Си (нет улиткового разбора, макросов, эллипсисов).

Был там один минус – что документации мало–, однако вот давеча сказал годной дорогой нейронке сделать мне проект на зиге. Важно, что с его синтаксисом последней ночной сборки. Нейронка буквально пошла в исходники std из инсталляции, недолго там пошуршала, и справилась с заданием.

sarumeister ★
(16.02.26 10:56:42 MSK)

Ссылка

Если не поддерживает поиск бинарного блоба в форме хексовой строки, то не нужно.

seiken ★★★★★
(16.02.26 11:14:19 MSK)

Ответ на: комментарий от seiken 16.02.26 11:14:19 MSK

Если не поддерживает поиск бинарного блоба в форме хексовой строки, то не нужно.

krep «cast oom_killer» /dev/random :-)

MKuznetsov ★★★★★
(16.02.26 11:35:17 MSK)

Ссылка

Ответ на: комментарий от DzenPython 14.02.26 19:22:05 MSK

Aho-Karasique. Используется алгоритм с развертыванием конечного автомата из пакетов и карпов (в пакете) для словаря.

Где-то ещё должны быть караси.

Aceler ★★★★★
(16.02.26 18:08:55 MSK)

Ссылка

Круто для большой нагрузки, наверное.

А в простых личных целях уже лет так n использую ack, написанный на Perl.

GFORGX ★★★
(16.02.26 20:23:47 MSK)

Ссылка

Ответ на: комментарий от CrX 14.02.26 20:04:51 MSK

заявкой на увольнение за оверинжениринг.

Было бы неплохо, но в реальности оверинжиниринг чаще наказывается премией чем увольнением.

Gentooshnik ★★★★★
(17.02.26 12:41:02 MSK)

Ссылка

Если верить штатному system monitor, то grep расправляется с файлами со скоростью около 230 мб/сек. У меня есть ощущение, что это уже предел для ssd. Если так, то к чему или зачем столько внимания на высокопроизводительную многопоточность?

Скорее всего я чего-то не понимаю, а понимать, скажу откровенно, очень хочется.

ubunec
(17.02.26 21:17:07 MSK)

Ссылка

https://github.com/davidesantangelo/krep/releases/tag/v2.1.0:

Поддержка чтения шаблона поиска из stdin: echo 'pattern' | krep -f - target.txt.
Добавлен ключ --gitignore для обработки файлов .gitignore при рекурсивном поиске.
Добавлена возможность «ручного» выбора алгоритма поиска: --algo auto (по умолчанию), bm (Boyer-Moore-Horspool) или kmp (Knuth-Morris-Pratt). Aho-Corasick выбирается автоматически при поиске по нескольким шаблонам.
Добавлены tar.gz со сборками Linux x86_64, macOS arm64 и macOS x86_64.