LINUX.ORG.RU

Ищу библиотеку для парсинга html

 , , ,


0

3

По последним отзывам подумал о том, что может прозондировать почву...

В общем ищу библиотеку для парсинга html. А точнее c bash-доступом. Подумываю о том, что было бы неплохо заменить в LORA python-lxml на что-то менее тяжелое и более нативное (как мне было сказано в одном из комментов, на тех машинах, через которые будет оптимально пользоваться программой питона может и не быть).

Кастую причастных: derlafff, Pinkbyte

Имхо стоит посмотреть в сторону какого-нибудь перла, ибо тащить кучу компиляторов тоже не Ъ

derlafff ★★★★★ ()
Ответ на: комментарий от aedeph_

the pon̷y he comes he c̶̮omes he comes the ich​or permeates all MY FACE

Весело тут у вас.

Because HTML can't be parsed by regex.

Брехня, у меня трекер на нем парсился, ЕМНИП мы еще не выбросили тот кусок кода. Сейчас стоит питоновский, но можно подключить старый модуль.

UPD: Да, не выбросили. Достаточно ввести команду old_tracker

AlexCones ★★★ ()
Последнее исправление: AlexCones (всего исправлений: 2)

perl + HTML::TreeBuilder

Можно тащить с собой при помощи PAR::Packer

AITap ★★★★★ ()
Ответ на: комментарий от AlexCones

Для перла требуется перл. Он есть почти везде.

Где ты найдешь спеца по перлу? - два.

Я не специалист по Python, но то, что там сейчас написал по манам за пару вечеров. Не так уж и много там кода

derlafff ★★★★★ ()

LORA

что это?

на что-то менее тяжелое

в этом есть необходимость или руки чешутся? Ну можешь посмотреть в сторону ElementTree (сElementTree если оно ещё живо).

питона может и не быть

поставьте

c bash-доступом

это ещё что за трава?

true_admin ★★★★★ ()
Ответ на: комментарий от AlexCones

Где ты найдешь спеца по перлу?

О, их уже всех вылечили!?

anonymous ()
Ответ на: комментарий от true_admin

что это?

LORA. Linux.org.ru console client

в этом есть необходимость или руки чешутся?

Люди тут говорят, что питон на целевых машинах, которые предполагается использовать - некошерно.

это ещё что за трава?

В смысле что бы я мог из через баш юзать функи библиотеки.

AlexCones ★★★ ()
Ответ на: комментарий от AlexCones

Я и до сих пор говорю. Просто тебе он перестал нравится из-за анонимных аналитиков.

Но перл, по идее, должен быть практически везде

derlafff ★★★★★ ()
Ответ на: комментарий от helios

Действительно, где же на ЛОРе найти perl-программистов?..

Переформулирую вопрос: Где ты найдешь спеца по перлу, который согласится работать за идею?

AlexCones ★★★ ()
Ответ на: комментарий от derlafff

Просто тебе он перестал нравится из-за анонимных аналитиков.

Мне он перестал нравиться еще до втыкания питона в проект.

AlexCones ★★★ ()
Ответ на: комментарий от AlexCones

Спецом быть не обязательно. Все сведется к изчучению документации в cpan cоотвествуещего модуля. Другое дело, что дейстивтельно, интересно сделать максимально коробочным и ничего не требующим. Может имеет смысл попробовать сделать online-html парсилку. Приложение будет подключатся к ней и использовать ее, для этой работы. Можно нзвать sky-net.

anonymous ()
Ответ на: комментарий от anonymous

Может имеет смысл попробовать сделать online-html парсилку. Приложение будет подключатся к ней и использовать ее, для этой работы. Можно нзвать sky-net.

Слишком несекьюрно и медленно

derlafff ★★★★★ ()
Ответ на: комментарий от anonymous

Аргументы разумные, однако для онлайн парсилки потребуются дополнительные ресурсы и деньги. Проще выбить из maxcomа API для ЛОРа.

AlexCones ★★★ ()
Ответ на: комментарий от anonymous

Другое дело, что дейстивтельно, интересно сделать максимально коробочным и ничего не требующим.

use lib уже отменили?

helios ★★★★★ ()
Ответ на: комментарий от derlafff

Я сам за perl, но если требуется сверх коробочность - почему нет? К тому же секьюрности можно добавить по вкусу.

anonymous ()
Ответ на: комментарий от helios

А так и что собственно нужно?

Для начала понять, что будем использовать :)

AlexCones ★★★ ()
Ответ на: комментарий от helios

Так если в сферической белой комнате без perl'a? Но опять повторяюсь, целиком за perl - просто, красиво.

anonymous ()
Ответ на: комментарий от AlexCones

Люди тут говорят

мало ли что говорят. если такие умные то пусть сами и пишут.

через баш юзать функи библиотеки.

зачем?? Ну, можно сделать обёртку для нужных функций. Можно даже извернуться и в духе перловых однострочников вывернуться (хотя, так же красиво как в перле не выйдет), но, имхо, есть проблемы в дизайне.

true_admin ★★★★★ ()
Ответ на: комментарий от AlexCones

Так, ясно. Тут питон подходит идеально. Объёмы парсинга смешные, поэтому что за претензии на тяжеловесность непонятно. Шли всех лесом, не иди на поводу у хомячков. Одному питон не понравится, другому перл, третьему баш... Плавали - знаем.

true_admin ★★★★★ ()
Ответ на: комментарий от anonymous

Так если в сферической белой комнате без perl'a?

Если нет Perl, значит там cmd.exe.

Но опять повторяюсь, целиком за perl - просто, красиво.

Удваиваю анона.

helios ★★★★★ ()

В конце концов или целиком писать на пригодным для этого языке perl, python, ruby, ${твой любимый язык}, у которого есть необходимые библиотеки или целиком на баше.

anonymous ()

Всех пишущих на bash приложения, вместо коротких скриптов, нужно стерилизовать и ставить прод пожизненное наблюдение.

anonymous ()
Ответ на: комментарий от AlexCones

Because HTML can't be parsed by regex.
Брехня, у меня трекер на нем парсился

Ты выдаешь частный случай за общий. На SO написали про общий случай. И я, например, тоже не могу представить себе никак регулярку, которая бы смогла корректно распарсить XML/HTML для общего случая. А вот для управляемого генератора этих самых хмл/хтмл - самое то (и приводит это к прикручиванию генератора к регулярке, а не наоборот, кстати).

GateKeeper ★★ ()

Прочитал тред. Вы только, если будете менять парсер, API не поломайте :-/. Там-то переписывать не много, но всё равно не возбуждает...

Pinkbyte ★★★★★ ()
Ответ на: комментарий от AlexCones

Вот именно аргументы этих 3,5 функций, которые вызываются ннадцать раз желательно и не ломать.

Pinkbyte ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.