Редактирование всех полей в org.wc3.dom.Document

0

1

Имеется документ org.wc3.dom.Document. Нужно просмотреть текстовые ноды и значения аттрибутов и заменить невалидные xml символы(с 00 по 32, исключая 9,10,13). Есть жесткие требования к скорости работы.

Может кто-то сталкивался, как можно эффективно сделать эту проверку и замену? Итерировать по всем элементам или трансформировать документ в строку, обработать ее, а потом распарсить обратно в документ? Или есть еще какие способы?

Ссылка

← Как проверить: является ли строка частью ключа словаря в Python

Портирование отсюда втуда →

Может, лучше SAX, если требования жёсткие?.. Сделать-то не особо много надо

Adonai ★★★
(19.02.15 21:00:34 MSK)
Последнее исправление: Adonai 19.02.15 21:00:46 MSK (всего исправлений: 1)

Ответ на: комментарий от Adonai 19.02.15 21:00:34 MSK

А в чем преимущества sax?

by_zero ★
(19.02.15 21:12:43 MSK) автор топика

Ответ на: комментарий от Adonai 19.02.15 21:00:34 MSK

Ну вообще когда уже есть готовый DOM, то работать с ним достаточно быстро. Обычно проблемы DOM в процессе парсинга, причем связаны они больше с выделением гигабайтов памяти под мелкие объекты.

maloi ★★★★★
(19.02.15 21:17:51 MSK)

Ответ на: комментарий от by_zero 19.02.15 21:12:43 MSK

В скорости и использовании памяти. Минусы - в несколько более сложном программировании парсера.

maloi ★★★★★
(19.02.15 21:19:33 MSK)

Нужно просмотреть текстовые ноды и значения аттрибутов и заменить невалидные xml символы

А откуда они там взялись?

maloi ★★★★★
(19.02.15 21:20:47 MSK)

Ответ на: комментарий от maloi 19.02.15 21:17:51 MSK

т.е. преобразование DOM в строку - это плохая идея с точки зрения производительности, да?

by_zero ★
(19.02.15 21:22:36 MSK) автор топика

Ответ на: комментарий от maloi 19.02.15 21:19:33 MSK

Ну мне нужно просто итерировать по всем тектовым нодам, никаких селекторов не нужно

by_zero ★
(19.02.15 21:23:14 MSK) автор топика

Ссылка

Ответ на: комментарий от maloi 19.02.15 21:20:47 MSK

В базу пишут нехорошие люди кривые символы. Базу фиксить нельзя

by_zero ★
(19.02.15 21:23:46 MSK) автор топика

Ответ на: комментарий от by_zero 19.02.15 21:22:36 MSK

dom->строка->dom - плохая идея, уж лучше просто dom взять и по нему пройтись.

maloi ★★★★★
(19.02.15 21:49:38 MSK)

Ссылка

Ответ на: комментарий от by_zero 19.02.15 21:23:46 MSK

в базе же у тебя не dom хранится, а blob/clob наверно?

maloi ★★★★★
(19.02.15 21:49:55 MSK)

Ответ на: комментарий от maloi 19.02.15 21:49:55 MSK

Я выхлоп от вебсервиса обрабатываю. А не знаешь насчет org.w3c.dom.traversal, этот пакедж как-раз позволяет выбрать все тектовые ноды и аттрибуты, он быстро работать будет или не в курсе?

by_zero ★
(19.02.15 22:04:48 MSK) автор топика

Ответ на: комментарий от maloi 19.02.15 21:49:55 MSK

Я вот всё думаю, а разве при парсинге в DOM оно не упадёт на невалидном символе?.. парсер-то полагает всю структуру корректной

Adonai ★★★
(19.02.15 22:05:43 MSK)

Ответ на: комментарий от by_zero 19.02.15 22:04:48 MSK

а ты попробовать не пробовал? (ага, именно так)

anonymous
(19.02.15 22:07:13 MSK)

Ответ на: комментарий от anonymous 19.02.15 22:07:13 MSK

а вдруг кто-то уже пробовал, а я буду делать ненужную работу?

by_zero ★
(19.02.15 22:26:36 MSK) автор топика

Ссылка

Ответ на: комментарий от Adonai 19.02.15 22:05:43 MSK

При парсинге может и упадет, но у меня xml создается из джава классов, падает уже при передаче респонза клиенту.

by_zero ★
(19.02.15 22:27:29 MSK) автор топика

Ссылка

Ответ на: комментарий от Adonai 19.02.15 22:05:43 MSK

Ну я это и пытался выяснить наводящими вопросами

maloi ★★★★★
(20.02.15 10:27:11 MSK)

Ссылка

Ответ на: комментарий от by_zero 19.02.15 22:04:48 MSK

Я выхлоп от вебсервиса обрабатываю

Так из базы или веб сервиса?

А не знаешь насчет org.w3c.dom.traversal, этот пакедж как-раз позволяет выбрать все тектовые ноды и аттрибуты, он быстро работать будет или не в курсе?

Не знаю, думаю не медленнее чем вручную написанная рекурсии.

maloi ★★★★★
(20.02.15 10:29:11 MSK)