Распарсить html

0

1

Доброго времени!

Суть проблемы такая. Есть страничка html, вот проблемный кусок:

....
<ul id="data">
<li>
<div>Addr </div> 
проблемный текст <br>
</li>
....

Собственно не могу получить «проблемный текст». Использую lxml. Делаю так:

tmp=html.document_fromstring(urlopen(url).read())
tmp.xpath("//ul[@id='data']/li")[0].text

Спасибо!

←	Qt и распараллеливание.

→

HTMLParser

anonymous
(03.01.14 22:48:56 MSK)

tmp.xpath("//ul[@id='data']/li/br/preceding-sibling::text()")

anonymous
(03.01.14 23:19:06 MSK)

Ответ на: комментарий от anonymous 03.01.14 23:19:06 MSK

Спасибо!

Berluskoni ★★
(03.01.14 23:23:50 MSK) автор топика

а может так проще будет парсить не xml странички?

from grab import Grab

g.go(url) g.pyquery('ul#data li')

fMad ★★★
(04.01.14 11:59:35 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Qt и распараллеливание.

→