LINUX.ORG.RU

Сообщения xakon

 

Как удалить все invalid characters из xml файлов?

Форум — General

Есть директория с UTF-8 файлами SC_TASK_0.xml SC_TASK_1.xml …. SC_TASK_50.xml

Необходимо написать скрипт, который будет удалять из файлов в директории все invalid characters. Пока встретился только Invalid character (Unicode: 0xB) .

Пример проблемного кусочка xml: https://pastebin.com/N6HBCDXe

Проблема в символе VT - Vertical tab.

Опытным путём удалось обрезать в одном файле, но как сделать это для всех файлов в определённой папке, сохранив их названия.

 , , ,

xakon
()

Как удалить часть текста между двумя тегами в xml?

Форум — General

Собственно сабж. Количество символов между тегами worklog /worklog может превышать 134217728, необходимо написать скрипт, который удалит из набора XML файлов все остальные символы>134217728, но до закрывающего тега /worklog.

Если очень упростить, что-то вроде «worklog text /worklog» заменить на

«worklog shell_substring_equivalent(text,0,134217728) /worklog»

Пример XML: https://pastebin.com/3cgpp3G7

 , , , ,

xakon
()

RSS подписка на новые темы