LINUX.ORG.RU

Очистка текста


0

1

В продолжение Вопрос по спецсимволам пробела

В процессе парсинга часто ловятся посторонние символы - неразрывные пробелы, виндовсные переводы строк, всякие смайлики-спецсимволы нет-нет, да и проскочат.

Вопрос такой: Подскажите, пожалуйста, софтину для окончательной, фактической чистки текста, и получении на выходе абсолютно кошерного каноничного UTF-8, без всяких посторонних примесей.

... | tr -cd "список нужных букв"
anonymous ()

Тебе еще не сказали что парсить xml/html/... регекспами это глупо?

З.Ы. утомил уже своим обучением за счет форума.

sdio ★★★★★ ()
Ответ на: комментарий от sdio

Да я, собственно, и не паршу его регекспами. rsstail+elinks'ом паршу.

Да, я использую форум для обучения. И очень благодарен людям, идущим мне навстречу в объяснении вещей, которых я не понимаю. Для решения проблем подобного рода форумы и существуют. Подниму левел - может, и сам кому помогу.

Ежели утомился - приляг, отдохни, не насилуй себя.

piyavking ★★★ ()
Последнее исправление: piyavking (всего исправлений: 1)
Ответ на: комментарий от piyavking

Не читать документацию, а попрошайничать «сделайте за меня» это современно. Продолжай, не насилуй себя чтением.

sdio ★★★★★ ()
Последнее исправление: sdio (всего исправлений: 1)
Ответ на: комментарий от sdio

Я, мил человек, документацию не всегда понимаю. За спрос денег не берут. Есть такое правило хорошего тона по тактике поведения: есть что сказать по конкретике - скажи, нет - мимо ходи. А ежели я себя неправильно поведу, меня модераторы поправят, они тут вполне бодро модерят.

piyavking ★★★ ()
Последнее исправление: piyavking (всего исправлений: 1)
Ответ на: комментарий от sdio

И ты не понял вопрос. Мне не регулярное выражение для чистки слепить надо, а подсказать софт, который эту чистку делает. Разница между первым и вторым - как между wget с последующим ковырянием тегов руками, и rsstail. Уловил?

piyavking ★★★ ()
Последнее исправление: piyavking (всего исправлений: 3)

всякие смайлики-спецсимволы

каноничного UTF-8

Если ты думаешь, что у каноничном utf одни только буквы, то это ты все напутал и думаешь про аски.

cdshines ★★★★ ()

смайлики-спецсимволы

кошерного каноничного UTF-8

Да ты же упоротый.

anonymous ()
Ответ на: комментарий от cdshines

ты все напутал и думаешь про аски.

ascii символы с 0 по 0x1f тоже не сильно читаемы и там как раз находится:

виндовсные переводы строк

anonymous ()

Эмм. Зачем тебе чистить неразрывные пробелы, если хороший софт (пример: heirloom toolchest, а из полноценных языков — внезапно, Perl и <что угодно с биндингами к ICU> как «те 2 вещи, в которых юникод реализован полностью») умеет их?

Если так хочется, то неразрывные пробелы можно убирать, матча по юникодному классу символов и заменяя на обычный пробел. Виндовые переводы строк — причина создания dos2unix, решается чем угодно. И вообще, в твоём вопросе 100% ответа.

x3al ★★★★★ ()
Ответ на: комментарий от x3al

Да, если нужны только буквы — матчишь по классу собственно букв. Добавляешь знаки препинания по вкусу. Остальное убираешь. На любимом языке, умеющем регэкспы (пример: перл, но не забывать, что по дефолту он не включает utf8)

x3al ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.