Парсинг невалидного (не по стандартам) DOM

0

3

Использую простую схему:


        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        DocumentBuilder db = null;
        try {
            db = dbf.newDocumentBuilder();
        } catch (ParserConfigurationException e) {
            throw new HtmlProcessorException(e);
        }
        Document xml = null;
        try {
            xml = db.parse(new ByteArrayInputStream(html.getBytes(StandardCharsets.UTF_8)));
        } catch (SAXException e) {
            throw new HtmlToXmlConvertionException("Html parsing exception", e);
        } catch (IOException e) {
            throw new HtmlToXmlConvertionException("Html reading exception", e);
        }

Но HTML содержит ноду с неопределенным атрибутом:

<link href="https://..." mask rel="icon" sizes="any">

В этом примере - mask не определен, выбрасывается эксепшн:

Caused by: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1442; Attribute name "mask" associated with an element type "link" must be followed by the ' = ' character.

Не могу нагуглить, есть ли способы заставить парсер воспринимать такие ситуации правильно, т.е. считать, что если нет ="", то атрибут с пустым значением? Или все-таки придется еще регекспами искать такое и вставлять это «дефолтное» значение?

Ссылка

← Парсер ping и tracert

C99 compound literals →

Т.е. тебя вот вообще ни капельки не смущает, что ты html парсишь xml-парсером?

hippi90 ★★★★★
(10.01.19 11:55:20 MSK)

Ответ на: комментарий от hippi90 10.01.19 11:55:20 MSK

html - это подмножество xml

bvn13 ★★★★★
(10.01.19 11:56:49 MSK) автор топика

Ответ на: комментарий от bvn13 10.01.19 11:56:49 MSK

А вот хер тебе, иди матчасть учи.

hippi90 ★★★★★
(10.01.19 11:57:09 MSK)

Ответ на: комментарий от hippi90 10.01.19 11:57:09 MSK

предлагай свой вариант поиска XPath-ами по DOMу

bvn13 ★★★★★
(10.01.19 11:57:48 MSK) автор топика

Ответ на: комментарий от bvn13 10.01.19 11:57:48 MSK

Прям XPath я ничего не помню, но если это не обязательное требование, то посмотри на jsoup. Он поддерживает CSS selector в качестве языка запроса.

hippi90 ★★★★★
(10.01.19 12:05:09 MSK)

Ответ на: комментарий от bvn13 10.01.19 11:56:49 MSK

Найди того, кто сказал тебе такую глупость, и ударь его по лицу. Это справедливо только для XHTML (который рипнулся уже).

UPD: лорчую jsoup

buddhist ★★★★★
(10.01.19 12:31:48 MSK)
Последнее исправление: buddhist 10.01.19 12:33:05 MSK (всего исправлений: 1)

HTMLCleaner

</thread>

~~Moondancer~~
(10.01.19 12:43:22 MSK)

Ссылка

Ответ на: комментарий от buddhist 10.01.19 12:31:48 MSK

Сам ты рипнулся, никто не мешает использовать его в новой вёрстке.

~~Moondancer~~
(10.01.19 12:43:59 MSK)

Ссылка

Ответ на: комментарий от bvn13 10.01.19 11:56:49 MSK

Это не так. HTML и XML это разные языки разметки, пусть и похожие и произошедшие от общего предка SGML. XHTML это действительно XML и его можно парсить с помощью XML-парсера. Но у тебя не этот вариант. Тебе нужен именно HTML-парсер.

~~Legioner~~ ★★★★★
(10.01.19 12:47:29 MSK)
Последнее исправление: Legioner 10.01.19 12:49:26 MSK (всего исправлений: 1)

Если бы HTML можно было безбоязнено парсить как XML - никто бы не писал regex-парсеры для html.

Deleted
(10.01.19 12:51:46 MSK)

Я тырил код для кусков html отсюда( подходит ли это для полновесного html х.з.) -

https://stackoverflow.com/questions/9022140/using-xpath-contains-against-html...

TagNode tagNode = new HtmlCleaner().clean(
        "<div><table><td id='1234 foo 5678'>Hello</td>");
org.w3c.dom.Document doc = new DomSerializer(
        new CleanerProperties()).createDOM(tagNode);

//And then use the standard JAXP interfaces to query it:

XPath xpath = XPathFactory.newInstance().newXPath();
String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()", 
                       doc, XPathConstants.STRING);
System.out.println(str);

vtVitus ★★★★★
(10.01.19 13:00:48 MSK)
Последнее исправление: vtVitus 10.01.19 13:01:55 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от bvn13 10.01.19 11:57:48 MSK

Кто тебе мешает искать xpath-ами по dom-у? html распарсь и ищи.

anonymous
(10.01.19 13:15:22 MSK)

Ответ на: комментарий от hippi90 10.01.19 12:05:09 MSK

XPath я ничего не помню

И влезаешь.

jsoup поддерживает CSS selector

А xpath поддерживает любые атрибуты и значения в них, в том числе id и class.

deep-purple ★★★★★
(10.01.19 13:21:38 MSK)

Вообще, по идее, оно должно было интерпретировать «mask» как «булевый» атрибут, например как <input type=«file» multiple>

Но это зависит от DTD и XSD описывающим тип документа и правила. В целом, для html5 допустимы кастомные атрибуты. Т.е. по сути твой парсер сломался не потому, что документ не валиден, а потому, что ты ему режим парсинга правильный не поставил.

deep-purple ★★★★★
(10.01.19 13:27:28 MSK)

Ответ на: комментарий от Legioner 10.01.19 12:47:29 MSK

Ещё один.

deep-purple ★★★★★
(10.01.19 13:29:07 MSK)

Ответ на: комментарий от Deleted 10.01.19 12:51:46 MSK

Отнюдь. Писать регекспы для парсинга хтмл — это говнокод, ССЗБ и даже хуже, чем писать регекспы для парснга хмл, в котором больше порядка, чем в хтмл.

deep-purple ★★★★★
(10.01.19 13:31:04 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.01.19 13:15:22 MSK

Он его распарсить не может — парсер с ошибкой вываливается. Дальше, конечно, xpath будет использовать.

deep-purple ★★★★★
(10.01.19 13:32:29 MSK)

Ссылка

Ответ на: комментарий от deep-purple 10.01.19 13:21:38 MSK

А xpath поддерживает любые атрибуты и значения в них, в том числе id и class.

CSS-селекторы тоже так умеют.

deadNightTiger ★★★★★
(10.01.19 13:39:28 MSK)

Ответ на: комментарий от deadNightTiger 10.01.19 13:39:28 MSK

Но они не умеют в паренты и десценданты. Сливай.

deep-purple ★★★★★
(10.01.19 13:44:04 MSK)

Ответ на: комментарий от deep-purple 10.01.19 13:44:04 MSK

десценданты

div > p

паренты

div:has(p). В CSS не работает, но работает в jsoup и jquery.

deadNightTiger ★★★★★
(10.01.19 13:50:35 MSK)

Ответ на: комментарий от deadNightTiger 10.01.19 13:50:35 MSK

А, асценданты?

deep-purple ★★★★★
(10.01.19 13:52:13 MSK)

Ответ на: комментарий от deep-purple 10.01.19 13:52:13 MSK

Не нужно :)

deadNightTiger ★★★★★
(10.01.19 13:58:43 MSK)

Парсинг невалидного

- очевидно сделать валидным, где возможно конечно.

Есть ряд инструментов: htmltidy, «распрекрасное мыло» ...

anonymous
(10.01.19 14:00:52 MSK)

Ссылка

Ответ на: комментарий от deadNightTiger 10.01.19 13:58:43 MSK

О, мне было нужно даже такое: xpath выбрать ближайших потомков

deep-purple ★★★★★
(10.01.19 14:01:25 MSK)

Ссылка

Ответ на: комментарий от deep-purple 10.01.19 13:27:28 MSK

Не должно. В XML булевые атрибуты должны указываться как attr=«attr». ОП применяет XML парсер, к нему хипстерные нововведения HTML неприменимы.

anonymous
(10.01.19 14:55:15 MSK)

Ссылка

Ответ на: комментарий от deep-purple 10.01.19 13:52:13 MSK

Ты про :is() (бывший :matches()) или о чём речь?

anonymous
(10.01.19 15:01:31 MSK)

Ссылка

Ответ на: комментарий от deep-purple 10.01.19 13:29:07 MSK

Ты тоже не знаешь отличий HTML от XML? Я сегодня добрый, держи прямую ссылку, где прекрасно видно, что знак «=» и значение атрибута не являются опциональными в XML.

~~Legioner~~ ★★★★★
(10.01.19 15:29:56 MSK)
Последнее исправление: Legioner 10.01.19 15:32:41 MSK (всего исправлений: 1)

пока не так много кода - переполз на jsoup

bvn13 ★★★★★
(10.01.19 16:32:52 MSK) автор топика

Ссылка

Ответ на: комментарий от Legioner 10.01.19 15:29:56 MSK

Василий, парсеру плевать. Его просто нужно настроить на то, чтобы он хтмл5 парсил.

deep-purple ★★★★★
(10.01.19 16:43:14 MSK)

Ответ на: комментарий от deep-purple 10.01.19 16:43:14 MSK

В примере именно XML парсер, написанный для того, чтобы парсить XML. И никаким DTD ты это не исправишь. Если это более гибкий парсер, позволяющий парсить нестандартные XML-подобные языки, вопросов нет. Но в Java я про такое не слышал, xerces и прочее такого функционала не имеют. Очень интересно посмотреть на пример, где через DocumentBuilder парсится атрибут без значения.

~~Legioner~~ ★★★★★
(10.01.19 17:42:44 MSK)
Последнее исправление: Legioner 10.01.19 17:43:39 MSK (всего исправлений: 1)