PCRE2 10.45

3

3

После более полугода разработки, состоялся выпуск 10.45 библиотеки PERL-совместимых регулярных выражений PCRE2, написанной на языке C и распространяемой по лицензии BSD. Это сравнительно большой выпуск, включающий в себя новые функции, некоторые исправления ошибок и несколько изменений, имеющих небольшое влияние на обратную совместимость.

Версия 10.45 – это первый выпуск, подготовленный новыми сопровождающими проекта, которые благодарят Филипа Хейзела, создателя и сопровождающего проектов PCRE и PCRE2.

Список изменений:

Проект JIT-компиляции sljit теперь используется как субмодуль Git.
Обновлены данные Юникода до версии 16 (unicode.org).
Нечувствительное к регистру сопоставление свойств Unicode Ll, Lt и Lu было изменено для соответствия Perl. Ранее шаблон /\p{Ll}/i учитывал только символы нижнего регистра (даже если было указано сопоставление без учета регистра). Это изменение также влияет на нечувствительное к регистру сопоставление классов POSIX, таких, как, например [:lower:].
Добавлена новая функция scan_substring. Это новый тип утверждения, которое сопоставляет содержимое захватываемого блока с подшаблоном.
Например, выражение \b(\w++)(*scan_substring:(1).+rh) находит слово, содержащее редкую в английском языке последовательность букв «rh», находящуюся не в самом начале.
Добавлена поддержка классов символов, совместимых с UTS#18 (Unicode Regular Expressions), с помощью новой опции PCRE2_ALT_EXTENDED_CLASS. Для этого нужно использовать [ в качестве метасимвола в символьных классах и операторы &&, -- и ~~, что позволяет легко производить вычитания и пересечения классов символов.
Например, для соответствия тайским или греческим буквам (но не буквам или другим символам в этих письменностях) можно использовать выражение [\p{L}&&[\p{Thai}||\p{Greek}]].
Добавлена поддержка расширенных классов символов в стиле Perl, используя синтаксис (?[...]). Это также позволяет выражать вычитания и пересечения классов символов, но с использованием синтаксиса, отличного от UTS#18 (Unicode Regular Expressions).
Например, для соответствия тайским или греческим буквам (но не буквам или другим символам в этих письменностях) можно использовать выражение (?[\p{L} & (\p{Thai} + \p{Greek})]).
Значительные улучшения в механизме сопоставления классов символов. Скомпилированные символьные классы теперь более компактны и обеспечивают более быстрое сопоставление для больших или сложных наборов символов, используя двоичный поиск по набору.
В API добавлена новая функция pcre2_set_optimize() для управления оптимизациями.
Множество улучшений функции pcre2_substitute().
Другие улучшения и исправления ошибок.

>>> Подробности на GitHub

Ссылка

← Groonga 14.1.3

curl 8.12.0 →

Да уж, монстрик какой-то получается. Ждем нечеткого поиска ala TRE.

gns ★★★★★
(06.02.25 12:58:19 MSK)

\b(\w++)(*scan_substring:(1).+rh) находит слово, содержащее редкую в английском языке последовательность букв «rh», находящуюся не в самом начале.

Я далёк от PCRE, но в Sam (1 (cat-v.org), 2 (9p.io), 3 (9p.io)) это делается намного проще: x/[a-zA-Z]+/ g/.rh/. Если описать словами, то «цикл по [a-zA-Z]+, затем для каждого элемента if содержит ‘.rh’».

kaldeon ★★
(06.02.25 13:04:03 MSK)
Последнее исправление: kaldeon 06.02.25 13:05:48 MSK (всего исправлений: 1)

Ответ на: комментарий от gns 06.02.25 12:58:19 MSK

В TRE (github.com), кстати, тоже новый сопровождающий. :)
А вот нечёткий поиск я бы добавил в Oniguruma, думаю об этом. :)

dataman ★★★★★
(06.02.25 13:04:42 MSK) автор топика

Ссылка

Ответ на: комментарий от kaldeon 06.02.25 13:04:03 MSK

Хотя для традиционных регулярных выражений это тоже не сложная задача: [a-qs-zA-QS-Z][a-zA-Z]*rh[a-zA-Z]*.

kaldeon ★★
(06.02.25 14:23:16 MSK)
Последнее исправление: kaldeon 06.02.25 14:23:27 MSK (всего исправлений: 1)

Ответ на: комментарий от kaldeon 06.02.25 14:23:16 MSK

\b(\w++)(*scan_substring:(1).+rh)

Не понял, зачем такая сложная конструкция, когда это простая задача для традиционной регулярки.

rmu ★★★
(06.02.25 15:18:58 MSK)

Ответ на: комментарий от rmu 06.02.25 15:18:58 MSK

так вы на простой пример смотрите, а подумайте о более сложном. например вычленение кода на языке внутри скобок шаблона

<% for @list -> $i, $j {... } %>

и заодно с учётом того, что скобки шаблона могут включать модификаторы, управляющие интеграцией в шаблон, ескейпингом и так далее.

в такие моменты будет хотеться записать выражение описывающее шаблон в целом в одном месте, а выражение его внутренностей в другом. Ну вот для этого и придумана эта функция

rsync ★★
(07.02.25 11:06:39 MSK)
Последнее исправление: rsync 07.02.25 11:07:09 MSK (всего исправлений: 1)

Ответ на: комментарий от rsync 07.02.25 11:06:39 MSK

Я не понял полностью пример, поэтому попробую начать с простого:

echo '<% for @list -> $i, $j {... } %>' |sed -r 's/<%(([^%]|%[^>])+)%>/\1/'

Данное выражение просто вырезает текст между <% и %>. [^%]|%[^>] сделано, чтобы вырезать текст до первого вхождения %>.

В чём проявляется ограничение данного решения?

kaldeon ★★
(07.02.25 15:12:52 MSK)
Последнее исправление: kaldeon 07.02.25 15:13:09 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Groonga 14.1.3

Open Source

curl 8.12.0 →

Похожие темы