Кто из нас упоролся - я или lxml?

0

1

Пишу парсер одного html-сайта. Вот код:

#!/usr/bin/env python3
# -*- encoding: utf-8 -*-
from urllib.request import urlopen
from lxml import etree

html = urlopen("http://google.com").read() # гугл, например.
html = html.decode("cp1251").encode("utf-8")
parser = etree.HTMLParser()
tree = etree.parse(html, parser)
print(u"Этот текст никогда не выведется.")

Из исходника должно быть понятно, что текст «Этот текст никогда не выведется.» никогда не выведется. Причём исходники самого сайта выводятся. Весь код после «tree = etree.parse(html, parser)» игнорируется полностью. Покажите мне кто-нибудь, где я дурак?

Ссылка

← Что такое REST API?

FFMPEG скриншот →

Прокрути повыше, там трейсбек будет:

Traceback (most recent call last):
  File "test.py", line 7, in <module>
    tree = etree.parse(html, parser)
  File "lxml.etree.pyx", line 3210, in lxml.etree.parse (src/lxml/lxml.etree.c:69126)
  File "parser.pxi", line 1748, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:101237)
  File "parser.pxi", line 1774, in lxml.etree._parseDocumentFromURL (src/lxml/lxml.etree.c:101501)
  File "parser.pxi", line 1678, in lxml.etree._parseDocFromFile (src/lxml/lxml.etree.c:100536)
  File "parser.pxi", line 1110, in lxml.etree._BaseParser._parseDocFromFile (src/lxml/lxml.etree.c:95988)
  File "parser.pxi", line 582, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:90446)
  File "parser.pxi", line 683, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:91632)
  File "parser.pxi", line 620, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:90893)
OSError: Error reading file '<!doctype html><html itemscope="" itemtype="http://schema.org/WebP

Первый аргумент etree.parse должен быть файлом, а не строкой в общем.

provaton ★★★★★
(01.03.14 21:05:14 MSK)

Ответ на: комментарий от provaton 01.03.14 21:05:14 MSK

Oh, SHI~... У меня просто терминал выше не прокручивает. Даже исходников нет. И в файл выхлоп перенаправить не получилось. Спасибо за помощь, добрый человек!

kosc
(01.03.14 21:42:23 MSK) автор топика

Ссылка

В догонку.

html = html.decode(«cp1251»).encode(«utf-8»)

Это ересь. lxml может в заголовки.

~~baverman~~ ★★★
(01.03.14 21:51:32 MSK)

А можно просто использовать bs например.

~~z00ke~~ ☆
(01.03.14 22:03:30 MSK)

Ответ на: комментарий от z00ke 01.03.14 22:03:30 MSK

bs это тормозное говно для девочек, которые не осилили xpath.

~~baverman~~ ★★★
(01.03.14 22:07:07 MSK)

Ответ на: комментарий от baverman 01.03.14 22:07:07 MSK

для девочек

Но я кун...

не осилили xpath

А что там осиливать? Просто я придерживаюсь принципа, если есть готовое решение, то зачем городить свои велосипеды.

~~z00ke~~ ☆
(01.03.14 22:11:53 MSK)

Ответ на: комментарий от baverman 01.03.14 22:07:07 MSK

bs4 вроде как умеет lxml в бэкенде, так что не такое уж и тормозное.

Олсо, urlopen заменить на requests.

anonymous
(01.03.14 22:17:48 MSK)

Ответ на: комментарий от anonymous 01.03.14 22:17:48 MSK

bs4 вроде как умеет lxml в бэкенде

Прикольно, буду знать.

~~baverman~~ ★★★
(01.03.14 22:58:30 MSK)

Ссылка

Ответ на: комментарий от z00ke 01.03.14 22:11:53 MSK

Просто я придерживаюсь принципа, если есть готовое решение, то зачем городить свои велосипеды.

Ну так xpath и есть готовое решение. Все остальное — это попытки сделать урезанный сахар.

~~baverman~~ ★★★
(01.03.14 23:00:30 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.03.14 22:17:48 MSK

Олсо, urlopen заменить на requests.

Из-за одной функции ставить ещё одну библиотеку? Нет, я ничего против неё не имею, она мне очень даже нравиться, но в данном случае, не вижу в ней необходимости.

kosc
(01.03.14 23:31:30 MSK) автор топика

Ответ на: комментарий от kosc 01.03.14 23:31:30 MSK

*нравится selffix

kosc
(01.03.14 23:37:30 MSK) автор топика

Ссылка

Ответ на: комментарий от baverman 01.03.14 21:51:32 MSK

Это ересь. lxml может в заголовки.

А вот у меня почему-то не получалось. Правда, сайт был другой, не google. Возможно, там траблы с заголовками просто. Так что можно и подстраховаться - хуже не будет.

kosc
(02.03.14 00:06:08 MSK) автор топика

Ответ на: комментарий от kosc 02.03.14 00:06:08 MSK

Возможно, там траблы с заголовками просто.

Да, иногда бывает, но тогда encoding лучше передать в parse.

~~baverman~~ ★★★
(02.03.14 00:25:20 MSK)

Ссылка

Возьми Scrapy он на базе twisted и c++ lxmllib.

menangen ★★★★★
(02.03.14 01:13:00 MSK)

Ответ на: комментарий от menangen 02.03.14 01:13:00 MSK

Сначала сам думал про Scrapy, но хочется хардкору (регекспы не предлагать, хотя... )

kosc
(02.03.14 01:55:01 MSK) автор топика

Ссылка

Ответ на: комментарий от kosc 01.03.14 23:31:30 MSK

Из-за одной функции ставить ещё одну библиотеку?

Что значит ставить? Почему она еще не стоит?

anonymous
(02.03.14 04:17:59 MSK)

Ответ на: комментарий от anonymous 02.03.14 04:17:59 MSK

Потому что неделю назад менял HDD на ноуте, всё ставил по новой. Нужно будет делать много POST/GET/PUT/DELETE-запросов - обязательно поставлю. Но ради получения html-кода одной страницы - не нужно.

kosc
(02.03.14 09:04:05 MSK) автор топика