Парсинг кривых XML

0

1

Здравствуйте, мои дорогие любители и профессионалы.

Чем и как принято на php парсить кривые XML?

В моём случае кривость заключается в несоответствии кодировки атрибутов тегов заявленной в преамбуле.

Не спешите советовать, дескать «перекодируй файл в нужную». Ибо кодировок, используемых в этом XML не менее 3 (UTF-8, сp1251, cp866).

Я уже помолился Патрику по поводу ниспослания автору сего поделия кровавого поноса с кусочками битых 6-х айфонов, только делу этим не поможешь, ибо ни имя ни координаты автора сего неизвестны.

Объём XML - файла - 10МБ, искать и править руками - нереально.

Были последовательно испробованы

simple_xml

DOMDocument

XMLReader

Всё шлёт меня на йух.

p.s. как предпоследний вариант готов рассмотреть консольную прогу, которую буду вызывать через system

p.p.s. В качестве последнего варианта, буду материться и писать парсер сам, так как структура этого XML не очень сложная

Ссылка

←	Изоморфные веб-приложения готовы?

Gandi.net -50% off Simple Hosting промо код

→

Попробуй распарсить python lxml, он емнип поадекватней будет чем пхпшный simplexml. Один раз распарсь, сериализуй, залей в файлик, читай из php.

NeverLoved ★★★★★
(26.11.14 10:05:27 MSK)

Ссылка

Если позволяет память я бы перекодировал в нужный, а потм бы использовал стандартный парсер.

utf-8 от двух последних отличается элементарно.

cp1251 от cp866 чуть сложенее но думаю реально.

Jaberwock ★★★
(26.11.14 10:25:09 MSK)

Ссылка

На каком языке данные? На русском?

Jaberwock ★★★
(26.11.14 10:29:01 MSK)

Ссылка

Всё шлёт меня на йух.

~~Телепа~~Как именно шлёт? Грязно ругаясь, вываливает exception или ниасиливает правильно определить кодировку?

heilkitty ★★
(26.11.14 10:31:01 MSK)
Последнее исправление: heilkitty 26.11.14 10:31:35 MSK (всего исправлений: 1)

Ссылка

содержимое большими или маленькими буквами набрано?

Jaberwock ★★★
(26.11.14 11:17:54 MSK)

Ссылка

Если кодировки - единственная проблема, то можно файлить побить на блоки, такие, что в пределах одного блока кодировка неизменна, детектировать кодировку в каждом блоке и преобразовывать. Три названные вроде бы можно отличить друг от друга полукостыльными методами.

amomymous ★★★
(26.11.14 11:24:06 MSK)

Ссылка

Провайдерам сайты блокировать помогаешь али просто одинэсник какой?

anonymous
(26.11.14 11:44:54 MSK)

Ссылка

несоответствии кодировки атрибутов тегов заявленной в преамбуле.

кодировок, используемых в этом XML не менее 3 (UTF-8, сp1251, cp866)

Зачем перекодировать файл? Меняй название кодировки в преамбуле. В цикле. Если xml распарсился, значит угадал кодировку

anonymous
(26.11.14 12:01:56 MSK)

Ссылка

*Парсер* тут не поможет. Поможет *лексер*. Тебе нужно вклинится между лексером и парсером и поправить кривые токены.

Если лексер слишком умный и пытается перекодировать имена атрибутов во внутреннее представление, то придётся писать свой вариант лексера.

Если модель данных известна это делается тривиально табличкой подстановок.

Если модель данных неизвестна/нефиксирована, то придется шаманить с определением типа кодировки.

Macil ★★★★★
(26.11.14 12:19:38 MSK)

Ссылка

Решилось так: номенклатура аттров, в которых пишут в кривых кодировках ограничивается Caption и Text.

Детектим в таких аттрах кодировку между utf-8 cp1251 и cp866 (это вполне успешно делается по среднему коду символа) и переводим в utf-8

Затем уже кормим да хотя бы тому же simple_xml

r_asian ★☆☆
(27.11.14 08:30:14 MSK) автор топика

Ответ на: комментарий от r_asian 27.11.14 08:30:14 MSK

тогда отмечай как решенную

Jaberwock ★★★
(27.11.14 09:10:49 MSK)

Ответ на: комментарий от Jaberwock 27.11.14 09:10:49 MSK

Это костыль, а не решение. Я надеялся, что будет какая-то настройка стандартных класов, которая позволяет не так строго подходить к синтаксису XML.

Ну да ладно, решенная так решенная.

r_asian ★☆☆
(27.11.14 09:37:35 MSK) автор топика

Ответ на: комментарий от r_asian 27.11.14 09:37:35 MSK

Не строго к синтаксису ХМЛ по идее подходить нельзя, но ошибки обрабатывать можно, тут от парсера зависит.

Попробуй SAX парсер какой-нибудь.

Питоновый Beautifull Soup на любые вроде ошибки умеет забивать

Kalashnikov ★★★
(27.11.14 09:47:14 MSK)

Ссылка

Что считается кривым XML ?

anonymous
(27.11.14 15:36:03 MSK)

Ссылка

SAX или любой событийный парсер.

vtVitus ★★★★★
(27.11.14 17:30:50 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Изоморфные веб-приложения готовы?

Web-development

Gandi.net -50% off Simple Hosting промо код

→

Похожие темы