LINUX.ORG.RU

GNU Grep 2.19: быстрее от 10 до 200 раз

 


0

1

Cегодня вышла новая версия программы GNU Grep 2.19. Джим Мейеринг (Jim Meyering) сообщает, что за 13 недель, прошедших со времени выхода прошлой версии, 4 разработчика сделали 152 коммита. Особое спасибо Норихиро Танака (Norihiro Tanaka) и Паулю Эггерту (Paul Eggert).

Улучшения

  • Значительно улучшена производительность, в типичных случаях на 10% и в некоторых случаях в 200 раз. Однако, производительность grep -P (то есть, при работе с регулярными выражениями с стиле Perl) в юникодных локалях стала только хуже. Это связано с исправлениями ошибок, которые могли приводить к падениям (см. ниже).

Исправление ошибок

  • grep больше не ошибается при работе с паттернами вида [a-[.z.]] ([.z.] обозначает collating symbol) Например, раньше в испаноамериканской локали grep работал неверно, а теперь работает правильно:
    echo b | LC_ALL=es_US.UTF-8 grep '[a-[.ch.]]'
    echo $ echo b | LC_ALL=es_US.UTF-8 ../src/grep '[a-[.ch.]]'
    b
    
    Также исправлена ошибка, когда неправильно обрабатывались регулярные выражения типа [^a], где a — collating symbol.
  • grep больше не ошибается с пустыми регулярными выражениями, когда они присутствуют в списке паттернов. Если в списке паттернов присутствует пустая строка, то должны находиться все исходные строки. Например, в 2.18:
    $ pat='hello
    '
    $ echo world | grep -e "$pat"
    world
    $pat='\(\)\1hello
    '
    # ошибка!
    $ echo world | grep -e "$pat"
    $
    
    (эта ошибка появилась в версии 2.5);
  • grep -C NUM педантично печатает разделитель, когда NUM равно 0, аналогично для -A и -B (ошибка присутствовала изначально);
  • grep, grep -F, grep -E теперь обрабатывают ошибки в кодировке паттернов таким же образом, как их обрабатывает движок обработки регулярных выражений GNU, учитывая, может ли ошибка находить части многобайтовых символов в данных (ошибка присутствовала изначально).
  • grep -w теперь правильно работает в многобайтовых локалях. То же касается паттернов '\<', '\>', '\b', '\B':
    # grep 2.18
    $ echo 'Привет, Мир' | grep '\<М'
    $
    # grep 2.19
    $ echo 'Привет, Мир' | grep '\<М'
    Привет, Мир
    $
    
    (ошибка присутствовала изначально);
  • grep -P теперь сообщает об ошибке и выходит, когда на вход поступают некорректные данные в кодировке UTF-8. Раньше программа могла упасть или зациклиться (ошибка появилась в grep-2.16);
  • grep -Pw теперь работает аналогично grep -w, искомая строка должна быть окружена символами, которые не могут быть частью какого-либо слова. Ранее, например, echo a@@a| grep -Pw @@ находила строку, а cho a@@a| grep -w @@ — нет. Теперь работают одинаково и строку не находят.
  • grep -i теперь правильно обрабатывает паттеры, содержащие символы в верхнем регистре. Например, в локали, содержащей символ 'Lj' (U+01C8 LATIN CAPITAL LETTER L WITH SMALL LETTER J), 'grep -i Lj' теперь находит и строку 'LJ' (U+01C7 LATIN CAPITAL LETTER LJ), и lj' (U+01C9 LATIN SMALL LETTER LJ).

>>> Подробности

★★★★★

Проверено: Shaman007 ()
Последнее исправление: Dendy (всего исправлений: 2)

Ответ на: комментарий от KennyMinigun

а еще эту функциональность дублирует boost::regex, так может его использовать? у нынешних разработчиков такие финты ушами модно делать

eternal_sorrow ★★★★★
()

GNU Grep 2.19: быстрее от 10 до 200 раз
Значительно улучшена производительность, в типичных случаях на 10% и в некоторых случаях в 200 раз

Упс! Кто-то не умеет в математику!

Deleted
()

неужели я когда-нибудь смогу юзать grep вместо grep? В sed это всё много лет назад исправили...

emulek
()
Ответ на: комментарий от KennyMinigun

Почему бы им просто не заюзать libperl?

ВНЕЗАПНО: они даже regex(3) из glibc не юзают. Наверное для того, что-бы каждая новая версия работала в 10 раз на 10% быстрее...

Интересно, насколько сейчас sed быстрее grep? Проверьте, кому не лениво...

emulek
()
Ответ на: комментарий от KennyMinigun

systemctl searchstring bla-bla-bla ?

нет. Им не нужно логи грепать, у них и так ВР. А если не ВР, то систему можно переустановить.

emulek
()
Ответ на: комментарий от greenman

Почему всё grep да grep?

ну потому что греп — традиционно мелкая одминская утилитка лог грепать, или там в сырцах TODO искать. Смысл её ускорять? Даже лог в 100500Mb будет намного дольше читаться с HDD, чем грепаться. Вот и делали пофиг как. Всё равно скорость одинаковая.

emulek
()
Ответ на: комментарий от Reset

не было там sleep. Просто тупой код без всяких оптимизаций.

emulek
()
Ответ на: комментарий от Sorcerer

А sed ускоряют?

нет. Дальше яйцаglibc не пускают.

emulek
()
Ответ на: комментарий от next_time

а нет ли специальной опции, котороя возвращала бы старое поведение, с багами?

есть: LC_ALL=C

тогда она не будет считать юникод русскими буквами.

emulek
()

GNU Grep 2.19: быстрее от 10 до 200 раз

GNU Grep! Теперь со вкусом Oracle!

Quasar ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.