Разбить текст на абзацы

0

2

Здравствуйте.Мне нужно разбить произвольный текст на абзацы(по 4 предложения на абзац).Я нашёл что-то похожее, выполненное через sed: sed 's/\(\([^.]*.\)\{3\}[^.]*\)./\1\n/g' (Тут, конечно, не совсем то, что нужно, ибо в моём случае может быть не только точка но и другие знаки(?, !, ... и т.п)), но мне хотя бы с точкой разобраться не помешало бы.Так вот, в написанной выше команде текст разбивается на абзацы по 4 предложения, но при этом точка в конце каждого 4-го предложения исчезает, например:

Исходный текст: «sdasdasd, sad. sadasda d. sadadasd. asdad. psadad.»

Получившийся: «sdasdasd, sad. sadasda d. sadadasd. asdad (вот тут точка пропадает) psadad.» Т.е в команде выше 4-ая точка заменяется на новую строчку, написанную с нового абзаца.Подскажите, как переделать, чтобы точка оставалась(а не заменялась)?И, собственно, возможно ли как-то адекватно сделать, чтобы не только с точкой, но и с любым знаком конца предложения на абзацы разбивалось?

Спасибо.

Ссылка

← Посоветуйте колокейшн в СПб

отключить прокрутку вкладок в chromium →

Подскажите, как переделать, чтобы точка оставалась(а не заменялась)?

Заменять не на \n, а на \.\n.

~~Psych218~~ ★★★★★
(07.12.15 18:03:27 MSK)

Ответ на: комментарий от Psych218 07.12.15 18:03:27 MSK

А да, конечно, не увидел что точку не поставил, думал в синтаксисе какой-то косяк.

Inedel
(07.12.15 18:11:06 MSK) автор топика

Ссылка

$ echo "sdasdasd, sad. sadasda d. sadadasd. asdad. psadad. qwerty? asdffgh. zxcvbn! poiuy." | sed -r 's/(([^.!?]+[.!?]){4})(\s*)/\1\n/g'
sdasdasd, sad. sadasda d. sadadasd. asdad.
psadad. qwerty? asdffgh. zxcvbn!
poiuy.
$

anonymous
(07.12.15 18:12:42 MSK)

Ответ на: комментарий от anonymous 07.12.15 18:12:42 MSK

Спасибо большое, как раз то что нужно.

Inedel
(07.12.15 18:31:57 MSK) автор топика

Ссылка

14 декабря 2016 г.

Взяв за основу ваш код, чутка его изменил и получил нечто на подобии sed ‘s/(\([^.]*.\)\{4\}\)/\0\n\n/g’ соответсвенно если нужны и другие символы огончания предложения просто добавить их к точке.

PS не могу понять чем собственно отличется \0 от \1 в данном случае пробовал оба варианта и на ответ это не влияло (объясните чайнику)

anonymous
(14.12.16 22:54:51 MSK)

Ответ на: комментарий от anonymous 14.12.16 22:54:51 MSK

Что-то в документации такого нет, в исходника тоже не смог найти. Судя по поведению, \0 похож на &, то есть подставляет всё совпадение, а не только то, что находится внутри скобок:

$ echo sword | sed -r 's/s(.*)/\0/'
sword
$ echo sword | sed -r 's/s(.*)/\1/'
word

anonymous
(15.12.16 07:19:14 MSK)

Ответ на: комментарий от anonymous 15.12.16 07:19:14 MSK

Похоже на то, Спасибо за помощь

anonymous
(15.12.16 19:46:30 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Посоветуйте колокейшн в СПб

General

отключить прокрутку вкладок в chromium →

Похожие темы