HTML parsing

0

0

И снова здравствуйте. Скажите, пожалуйста, есть ли какие методы для парсинга HTML страниц? Интересует не только и не столько преобразование HTML в дерево вида: [<html>] => [<head>] => [<title> = 'Some title'] и т.д. сколько парсинг для получения содержимого страницы. То есть, например, я хочу получать курс валют с rbc.ru, или грабить заголовки свежих постингов с какого-то сайта (который не предоставляет никакого RSS). Есть ли такие решения? Если да, то ткните, пожалуйста, носом в доки (алгоритм) и/или подобные программы/скрипты (предпочтительно на C или PHP, но не принципиально).

Заранее благодарен.

Ссылка

← Два вопроса по fluxbox

Изменение даты создания файла →

Посмотрите в сторону html2text хотя это конечно далеко от того что нужно

SatanClaus ★★★
(29.02.04 15:15:49 MSK)

Ответ на: комментарий от SatanClaus 29.02.04 15:15:49 MSK

Я тоже интересовался этим вопросом ... Но так ничего и ненашёл, судя по всему без RCC невозможно ...

SpaD ☆
(29.02.04 15:44:47 MSK)

Ответ на: комментарий от SatanClaus 29.02.04 15:15:49 MSK

Я бы даже сказал, что слишком далеко... =/

xlex ★
(29.02.04 16:38:42 MSK) автор топика

Ссылка

Ответ на: комментарий от SpaD 29.02.04 15:44:47 MSK

Должно быть возможно... Только вот не знаю с какого конца подступиться...

xlex ★
(29.02.04 16:40:01 MSK) автор топика

Ссылка

на си ты это сделаешь, но единственный выигрыш - скорость - не важна, т.к. таймаут всегда в сотни раз выше, чем скорость работы скрипта. в PHP хреновые регекспы.

Выдирать курсы валют c www.rbc.ru на перле в одну строчку можно так:

perl -MLWP::Simple -e '$x.=get "http://www.rbc.ru"; do{$a=$1;$a=~s!<.*?>|\ !!ig; print $a }if $x=~m!<TR>.*?USD ЦБ РФ(.*?)</TR>!igs'

эту строку написать - 5 минут..

еще, онлайновый парсер новостей - по моему нет такого, хотя что-то было на цпане. Проще самому, _зная_ регекспы...

~~vilfred~~ ☆☆
(29.02.04 17:03:48 MSK)

Ответ на: комментарий от vilfred 29.02.04 17:03:48 MSK

Thanks за совет про языки. Как я понимаю, ничего универсального нет и каждый раз надо писать свой скрипт? А что посоветуешь по регэкспам и по какому слову в цпане искать?

xlex ★
(29.02.04 17:28:03 MSK) автор топика

Ответ на: комментарий от xlex 29.02.04 17:28:03 MSK

"Как я понимаю, ничего универсального нет и каждый раз надо писать свой скрипт?" вообще да, т.к. если дизайнеры сайта изменят хоть чуть чуть html код странички, то тогда сишную программу изменить значительно сложнее чем php или perl'овую.

по регекспам книжку лучше Advanced Programming in Perl или справочник perl Стивена Холзнера, там глава была про регекспы.

~~vilfred~~ ☆☆
(29.02.04 17:39:19 MSK)

Ответ на: комментарий от vilfred 29.02.04 17:39:19 MSK

Ок. В PHP есть Perl-овские регеэкспы - они, по идее, должны быть лучше чем POSIX-овские, то есть такие же как Perl-овские, можешь прокомментировать их как-нибудь?

xlex ★
(29.02.04 18:05:05 MSK) автор топика

А HTML::Parser не подходит?

chucha ★★★☆
(29.02.04 18:25:29 MSK)

Ответ на: комментарий от xlex 29.02.04 18:05:05 MSK

ну, я php не писал... в принципе регекспы на уровне выцепить html код там есть (ибо как то нашел php'шное решение даже :). Может быть там нет конструкций вида s!(xxx)!$1?"yyy":"zzz"! или s!(xxx)\1!"blahblag"!

имхо, должно для парсинга хватить. Но где найтиописание именно php'шных регекспов - просто не знаю. (наверное google)

~~vilfred~~ ☆☆
(29.02.04 18:45:46 MSK)

Ответ на: комментарий от chucha 29.02.04 18:25:29 MSK

Как я понял, он просто вытягивает содержимое одного тега или хтмл структуру, а это не совсем то, что надо.

Нужно чтобы скрипт, например, мониторил индексную страницу linux.org.ru, и при появлении новых новостей говорил - мужик, тут такие-то новые темы + тут в таких-то темах добавилось комментариев.

xlex ★
(29.02.04 19:01:04 MSK) автор топика

Ссылка

Ответ на: комментарий от vilfred 29.02.04 18:45:46 MSK

Описание ПХП-шных регёскпов есть на самом пхп-шном сайта, и как выцепить теги я знаю (для интереса написал скриптик, вытягивающий все ссылки из страницы и дополняющий их до полного адреса), мне просто было интересно мнение человека знающего пёрл...

xlex ★
(29.02.04 19:02:53 MSK) автор топика

Ответ на: комментарий от xlex 29.02.04 19:02:53 MSK

2 xlex (*) (29.02.2004 19:02:53)

Слушай поделись скриптиком ... ОК ? :) ...

spad@torba.com

SpaD ☆
(29.02.04 19:06:49 MSK)

Ответ на: комментарий от SpaD 29.02.04 19:06:49 MSK

Проверяй почту.

xlex ★
(29.02.04 19:48:57 MSK) автор топика

Ответ на: комментарий от xlex 29.02.04 19:48:57 MSK

Спасибо большое , вот только нужно разобраться с ним ...

Спасибо большое !!!

SpaD ☆
(29.02.04 20:05:37 MSK)

Ответ на: комментарий от SpaD 29.02.04 20:05:37 MSK

У каждой монеты две стороны - если написал сам, то много времени, но зато знаешь что написано, а если не сам, то тут уж, извините, разбираться надо... =)

xlex ★
(29.02.04 20:14:50 MSK) автор топика

Ответ на: комментарий от xlex 29.02.04 20:14:50 MSK

Вот глянь что нашел в гугле newsgrabber php:

http://www.google.com.ru/search?hl=ru&ie=UTF-8&oe=UTF-8&q=newsgra...

newsgrabber perl:

http://www.google.com.ru/search?hl=ru&ie=UTF-8&oe=UTF-8&q=newsgra...

p.s. самому писать граббер новостей - это сложно т.к. надо описывать общие случаи, и, если писать, то надо бы через темплейты для каждого новостного сайта в отдельности.

~~vilfred~~ ☆☆
(29.02.04 20:48:03 MSK)