Как получить атрибут элемента из DOM в явном виде, без преобразования спецсимволов?

dom, html, php, код, спецсимволы

0

2

Есть у меня XML-документы, в которых могут встречаться такие вещи:

<item id="14925" name="&lt;table&gt; - создание таблиц"/>

Когда идет разбор данного XML через DOM, значение атрибута name получается с помощью вот такого кода:

$name=$currElement->getAttribute("name");

Проблема в том, что метод getAttribute() автоматически преобразует строку атрибута так, что спецсимволы в строке атрибута будут преобразованы в настоящие символы. И поэтому в переменной $name будет значение:

"<table> - создание таблиц"

А мне необходимо, чтобы значение атрибута было взято как есть, без преобразования.

Вот тут похожая проблема, но ответа никто не знает: https://ru.stackoverflow.com/questions/822685/domelementsetattribute-добавить...

Вопрос: как получить значение атрибута из DOM в явном виде?

Ссылка

←	Автоматические мерж мастера с моей веткой

Виртуальная SIM для заведения google аккаунта.

→

$attrNode = $currElement->getAttributeNode('name');
$attrValue = $attrNode->textContent;

sanwashere ★★
(09.09.18 18:01:04 MSK)

Ссылка

Может, не надо? XML — это, на самом деле, не текст, а дерево объектов, которое по недоразумению кодируют в получитабельном виде; и в этом дереве объектов никакого «преобразования» уже нет. Получение текста до преобразования — это будет скорее баг, чем фича.

Miguel ★★★★★
(11.09.18 09:06:08 MSK)

Ответ на: комментарий от Miguel 11.09.18 09:06:08 MSK

Получение текста до преобразования — это будет скорее баг, чем фича

Тоже согласен с этой точкой зрения. Поведение конкретных версий конкретных движков и библиотек по поводу отработки свойства textContent запросто может измениться в будущих версиях. Если уж так хочется получить «<table>», то лучше воспользоваться методом getAttribute и сделать обратное преобразование. Тут, на самом деле, существенно, что вы потом собираетесь делать с этим текстом...

~~vinvlad~~ ★★
(12.09.18 11:33:59 MSK)

Ответ на: комментарий от vinvlad 12.09.18 11:33:59 MSK

Согласно https://www.w3.org/TR/2004/REC-DOM-Level-3-Core-20040407/core.html#Node3-text... поведение изменяться не будет, так что textContent должен быть нормальным вариантом.

sanwashere ★★
(12.09.18 13:24:29 MSK)

Ответ на: комментарий от sanwashere 12.09.18 13:24:29 MSK

Согласно https://www.w3.org/TR/2004/REC-DOM-Level-3-Core-20040407/core.html#Node3-text... поведение изменяться не будет, так что textContent должен быть нормальным вариантом.

У вас логическая ошибка в рассуждении. Вы ссылаетесь на W3C-спецификацию (которая действительно меняться не будет), а вывод делаете относительно поведения разных версий программного продукта. Вы никогда не встречали несоответствия ПО спецификации W3C?

Я просто предварительно достаточно внимательно просмотрел спецификацию и не нашёл в ней однозначного, явного утверждения относительно того, что свойство textContent должно возвращать именно строку «<table> ...» - в UTF-формате. Возможно, я что-то недосмотрел или читал слишком поверхностно - тогда бросьте более конкретные ссылочки.

Если посмотреть, к примеру, developer.android.com - EntityReference, то там говортся следующее:

EntityReference nodes may be used to represent an entity reference in the tree. Note that character references and references to predefined entities are considered to be expanded by the HTML or XML processor so that characters are represented by their Unicode equivalent rather than by an entity reference. Moreover, the XML processor may completely expand references to entities while building the Document, instead of providing EntityReference nodes.

~~vinvlad~~ ★★
(12.09.18 14:57:44 MSK)

Ответ на: комментарий от vinvlad 12.09.18 14:57:44 MSK

Возможно и будет заменять, но «чище» способа получить исходное значение, увы, не видно.

sanwashere ★★
(12.09.18 17:12:20 MSK)

Ответ на: комментарий от sanwashere 12.09.18 17:12:20 MSK

... но «чище» способа получить исходное значение, увы, не видно

Насколько я понимаю, TC-у на самом деле нужно просто получить в PHP фрагмент текста, который можно будет потом безопасно вставлять в HTML. Ну так для этого в PHP есть функции htmlspecialchars() и htmlentities().

~~vinvlad~~ ★★
(12.09.18 18:45:25 MSK)

Ответ на: комментарий от vinvlad 12.09.18 18:45:25 MSK

По этому поводу согласен, защищаться за счёт парсера HTML/XML - это странно.

sanwashere ★★
(12.09.18 20:40:03 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Автоматические мерж мастера с моей веткой

Web-development

Виртуальная SIM для заведения google аккаунта.

→

Похожие темы