html-entities

0

1

Парсю небольшой кусок хтмла с python.sax, начались проблемы с сабжем, притом довольно избирательные: > например парситься нормально, а на падает с «SAXParseException: <unknown>:29:3: undefined entity». Попробовал сделать кусок документа валидным, обернув в

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head></head>
<body>
...
</body></html>

- работает, но аж две минуты почему-то (скачивается dtd?). С доктайпом «html» всё тоже падает.

Насколько, я понимаю, можно добавить

<!DOCTYPE[ 
<!ENTITY nbsp "&#160;"> 
]>

, но мне не хочется перебирать их все. Как нормально указать парсеру как ресолвить стандартные хтмл-сущности?

Ссылка

←	Online-IDE для jQuery с формочками

mod_rewrite, xml -> php

→

XML парсер? В XML есть по дефолту только lt, gt и quot. Скорми ему все объявления. У Оперы, например, такой файл есть в «/usr/share/opera/html40_entities.dtd».

Deleted
(10.12.12 23:31:41 MSK)

скачивается dtd

Опции навроде nonet нет? Не пользуюсь питоном, так что…

Deleted
(11.12.12 00:02:23 MSK)

Ссылка

Ответ на: комментарий от Deleted 10.12.12 23:31:41 MSK

Костыльно же, хочется прямее. Но за файл спасибо, хоть не надо искать их.

Kalashnikov ★★★
(11.12.12 00:21:27 MSK) автор топика

Ответ на: комментарий от Kalashnikov 11.12.12 00:21:27 MSK

Костыльно

Если парсер XML'ный, то это как бы Ъ вей, ничего не поделать, т.к. в XML такие entity вообще не должны попадаться в принципе (^ ^)

Deleted
(11.12.12 00:24:57 MSK)

Ответ на: комментарий от Deleted 11.12.12 00:24:57 MSK

Ну, эээ… по дефолту. XML это всё же общая разметка.

Deleted
(11.12.12 00:26:14 MSK)

Ссылка

just my 5 cents - sax актуален если тебе важна производительность, или документ, который ты парсишь, очень большой... для всего остального есть lxml или beautifulsoup (если html совсем плохой), или regexp'ы (если он вообще ни разу не валидный, но структура сохраняется и данные вытащить всё-таки хочется)

ei-grad ★★★★★
(13.12.12 08:33:41 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Online-IDE для jQuery с формочками

Web-development

mod_rewrite, xml -> php

→

Похожие темы