Сматчить статичную строку с символом/группой символов в любом её месте

0

2

Привет!

Ребята, я как-то совсем заблудился в документации к регэкспам. Есть ли возможность сматчить статичную строку, с учётом определённой группы символов, которая может появиться в любом месте этой строки?

Например, надо ловить фразу «Мама мыла раму» и в строке

«Мама мыла раму»

и в строке

«Мама мыла раму».

Такое вообще возможно реализовать регэкспами?

Спасибоньки!

Ссылка

← Запрос sudo в Bash-скрипте через zenity и kdialog

Не форкнутый ядерный драйвер EXFAT с поддержкой Linux 2.6, 3 и 4 →

Можно найти определенную группу символов по регулярке « » и заменить ее на пустоту, в итоге получим искомую строку.

CrossFire ★★★★★
(03.10.15 09:48:29 MSK)
Последнее исправление: CrossFire 03.10.15 09:51:23 MSK (всего исправлений: 1)

Ответ на: комментарий от CrossFire 03.10.15 09:48:29 MSK

Нет, так не очень подойдет, потому что вокруг искомой строки есть ещё куча таких же групп и их нужно сохранить.

Чтобы лучше было понятно, задача в замене текста в docx с попыткой сохранения форматирования. Про Python-Docx в курсе, но он слишком многое ломает, пытаюсь вот навелосипедить своё решение.

mega_venik ★★★★
(03.10.15 09:54:05 MSK) автор топика

Ответ на: комментарий от mega_venik 03.10.15 09:54:05 MSK

Чтобы лучше было понятно, задача в замене текста в docx с попыткой сохранения форматирования.

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml...

anonymous
(03.10.15 09:57:15 MSK)

mother\s*(?: )?\s*has\s*(?: )?\s*been\s*(?: )?\s*wasing\s*(?: )?\s*a\s*(?: )?\s*window\s*(?: )?\s*frame\?

anonymous
(03.10.15 10:12:09 MSK)

Ответ на: комментарий от anonymous 03.10.15 09:57:15 MSK

Да, про это я тоже в курсе:-D

mega_venik ★★★★
(03.10.15 10:15:10 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 03.10.15 10:12:09 MSK

В совсем любом месте строки, даже посреди слова. Возможно, даже в нескольких местах.

mega_venik ★★★★
(03.10.15 10:22:45 MSK) автор топика

Ответ на: комментарий от mega_venik 03.10.15 10:22:45 MSK

Ах вон он чё. Тогда да, лучше сначала удалить всё лишнее. А регулярками я хз.

anonymous
(03.10.15 10:33:33 MSK)

Ссылка

Ответ на: комментарий от mega_venik 03.10.15 10:22:45 MSK

В совсем любом месте строки, даже посреди слова. Возможно, даже в нескольких местах.

Т.е. строка «Матумба, мешкая, пердылила Рамаяну» подойдёт?

proud_anon ★★★★★
(03.10.15 10:54:43 MSK)

И «Мама мыла раму» и «Мама мыла раму» после сортировки дадут одинаковую строку " <>brМаааалмммруы", а «Мама мыла раму» будет " Маааалмммруы".

Стрипаем и получаем стандартный поиск подстроки в строке.

vvn_black ★★★★★
(03.10.15 11:05:41 MSK)

Ответ на: комментарий от vvn_black 03.10.15 11:05:41 MSK

И «Мама мыла раму» и «Мама мыла раму» после сортировки дадут одинаковую строку

Ты точно PHPшник или фронтендер. Настолько черезжопно и нерабоче могут сделать только они.

anonymous
(03.10.15 11:21:59 MSK)

Ответ на: комментарий от anonymous 03.10.15 11:21:59 MSK

Есть текст с некими управляющими символами. Нужен поиск строки без учета этих символов.

Если управляющие символы заранее известны, то да, убираем и ищем. Если неизвестны, то по граничным словам строки поиска выделяем фрагменты в исходном тексте и матчим так, как я предложил. Почему нет?

Предложи свой вариант?

vvn_black ★★★★★
(03.10.15 11:27:29 MSK)

Ответ на: комментарий от vvn_black 03.10.15 11:27:29 MSK

Нужен поиск строки без учета этих символов.

На строке «Мама мыла раму мылом» твой «алгоритм» сломается. Пойнт в том что сортировка абсолютно никчемный шаг.

Предложи свой вариант?

xml парсер, поиск нужных поледовательностей из text node. Причем это позволит сделать замену, про которую ты даже не думал.

anonymous
(03.10.15 11:42:22 MSK)

Ссылка

Ответ на: комментарий от proud_anon 03.10.15 10:54:43 MSK

Т.е. строка «Матумба, мешкая, пердылила Рамаяну» подойдёт?

Нет, куски, которые нужно игнорировать, являются XML-тегами

mega_venik ★★★★
(03.10.15 14:18:13 MSK) автор топика

Так это же простейшай регулярка. В чем прикол?

На js вот так будет

console.log(

 "blamla\nмама foo<br> мыла раму\nfoo\n blamla\nащщ мама мыла  <br>раму kfk аоаооа\nikfkf ffkfk flfk"
  .match(/^.*мама.+мыла.+раму.*$/mg)

)

[ 'мама foo<br> мыла раму',
  'ащщ мама мыла  <br>раму kfk аоаооа' ]

перепиши на пистон и попробуй

~~sadlinuxoid~~
(03.10.15 17:34:16 MSK)

Ссылка

Ответ на: комментарий от mega_venik 03.10.15 14:18:13 MSK

куски, которые нужно игнорировать, являются XML-тегами

Если только одиночные теги, то вот так

console.log(

 "<ba>мама<br>мыла раму\nblamla\nмама foo<br> мыла раму\nfoo\n blamla\nмама мыла <br>раму <b>\nащщ мама мыла  <br>раму kfk аоаооа\nikfkf ffkfk flfk"
   .match(/^\s*(<[^>]+>)*\s*мама\s*(<[^>]+>)*\s*мыла\s*(<[^>]+>)*\s*раму\s*(<[^>]+>)*\s*$/mg)

)

//[ '<ba>мама<br>мыла раму', 'мама мыла <br>раму <b>' ]

~~sadlinuxoid~~
(03.10.15 17:56:37 MSK)

Ответ на: комментарий от sadlinuxoid 03.10.15 17:56:37 MSK

А если

«Ма ма мыла р аму»

mega_venik ★★★★
(03.10.15 18:33:19 MSK) автор топика

Ответ на: комментарий от mega_venik 03.10.15 18:33:19 MSK

это бред какой-то. вставляй (<[^>]+>)* между каждой буквой.

~~sadlinuxoid~~
(03.10.15 18:36:12 MSK)

Ответ на: комментарий от mega_venik 03.10.15 18:33:19 MSK

У тебя 3 варианта: стрипать теги перед поиском (самый разумный), делать свой алгоритм поиска, игнорирующий теги (может быть ок в зависимости от ситуации) и динамически делать регэксп, вставляющий возможность тега после каждого символа (самый бредовый). Регэкспами тут появляются только в третьем случае.

x3al ★★★★★
(03.10.15 19:00:07 MSK)
Последнее исправление: x3al 03.10.15 19:00:46 MSK (всего исправлений: 1)

Ответ на: комментарий от x3al 03.10.15 19:00:07 MSK

Нет там вариантов кроме как использовать XML парсер. Все остальное будет дрочка сидя в гамаке.

anonymous
(03.10.15 19:21:13 MSK)

Ответ на: комментарий от anonymous 03.10.15 19:21:13 MSK

Зависит от, ну и оно медленнее при том, что в ТЗ нет ничего о парсинге XML, поэтому может быть оверкилл.

x3al ★★★★★
(03.10.15 19:26:55 MSK)
Последнее исправление: x3al 03.10.15 19:27:38 MSK (всего исправлений: 1)

Ответ на: комментарий от sadlinuxoid 03.10.15 18:36:12 MSK

это бред какой-то. вставляй (<[^>]+>)* между каждой буквой.

это не бред, это бардак. Но и с ним приходится работать.

mega_venik ★★★★
(03.10.15 19:27:22 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 03.10.15 19:21:13 MSK

Плюс это является частным случаем варианта (2).

x3al ★★★★★
(03.10.15 19:28:05 MSK)

Ссылка

Ответ на: комментарий от x3al 03.10.15 19:00:07 MSK

В общем, никаких общепринятых регексповых вариантов решения проблемы нет, да? Только кодировать свой поиск, так?

mega_venik ★★★★
(03.10.15 19:28:39 MSK) автор топика

Ответ на: комментарий от mega_venik 03.10.15 19:28:39 MSK

Почему ты решил, что эту задачу нужно решать регэкспами? Они тут никаким боком. Костыльно можно, но зачем?

x3al ★★★★★
(03.10.15 19:31:37 MSK)

Ответ на: комментарий от x3al 03.10.15 19:26:55 MSK

ну и оно медленнее

В тз ничего не сказано про скорость.

что в ТЗ нет ничего о парсинге XML

есть:

docx

anonymous
(03.10.15 19:32:49 MSK)

Ссылка

Ответ на: комментарий от mega_venik 03.10.15 19:28:39 MSK

Только кодировать свой поиск, так?

Блжад, что там кодировать? Это кстати интересная бонусная задачка на тестовое ТЗ, хорошо будет отсеивать рукозадых.

anonymous
(03.10.15 19:35:06 MSK)

Ссылка

Ответ на: комментарий от x3al 03.10.15 19:31:37 MSK

Костыльно можно

Да почему костыльно? По - любому регекспы тут самый простой и быстрый вариант. Сама задача бредовая, это да, но она не сложная сама по себе. Наоборот, любое решение кроме регекспов тут — костыли.

~~sadlinuxoid~~
(03.10.15 19:51:44 MSK)

Ответ на: комментарий от anonymous 03.10.15 19:21:13 MSK

кроме как использовать XML

А ничего, что не всякий HTML является валидным XML? Ты можешь с XML - парсером не только подрочить, но и соснуть, внезапно, в своем гамаке.

~~sadlinuxoid~~
(03.10.15 19:58:06 MSK)

Ответ на: комментарий от sadlinuxoid 03.10.15 19:51:44 MSK

быстрый

4.2

простой

Конструировать регэксп на лету?!

x3al ★★★★★
(03.10.15 19:59:32 MSK)

Ответ на: комментарий от x3al 03.10.15 19:59:32 MSK

Конструировать регэксп на лету?!

Нафига?

~~sadlinuxoid~~
(03.10.15 20:00:43 MSK)

Ответ на: комментарий от sadlinuxoid 03.10.15 19:58:06 MSK

А ничего, что не всякий HTML является валидным XML?

Анонiмус никогда не отличался хорошей способностью читать, но мы к этому все привыкли, но даже если опустить docx, то я перепарсил кучу битого html-я xml-парсером.

anonymous
(03.10.15 20:04:18 MSK)

Ссылка

Ответ на: комментарий от sadlinuxoid 03.10.15 20:00:43 MSK

Нафига?

А что ты делал выше?

anonymous
(03.10.15 20:04:49 MSK)

Ответ на: комментарий от anonymous 03.10.15 20:04:49 MSK

А где ты там конструирование на лету увидел?

~~sadlinuxoid~~
(03.10.15 20:18:39 MSK)

Ответ на: комментарий от sadlinuxoid 03.10.15 20:18:39 MSK

вставляй (<[^>]+>)* между каждой буквой.

Или ты думаешь, что строка поиска одна и известна заранее?

x3al ★★★★★
(03.10.15 20:19:22 MSK)

Ответ на: комментарий от x3al 03.10.15 20:19:22 MSK

А почему она должна быть одной и известной заранее? Если он так сделает, он получит то что хотел, под шаблон будут попадать строки вида ма ма мыла раму

~~sadlinuxoid~~
(03.10.15 20:23:33 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Запрос sudo в Bash-скрипте через zenity и kdialog

Development

Не форкнутый ядерный драйвер EXFAT с поддержкой Linux 2.6, 3 и 4 →

Похожие темы