прошу совета в разработке парсера

0

1

есть необходимость написать парсер, который будет собирать данные о предприятиях со всяких каталогов и жёлтых страниц. на данный момент парсер пишется (вернее, переписывается с небольшими вариациями) под каждый сайт отдельно, но я бы хотел написать такой универсальный парсер (заточенный под сборку определённого единожды набора данных, в который входят адрес, телефон, название , мыло и т.д.) который бы без переписывания кода подходил бы к большинству сайтов подобной тематики. есть ли какие-то открытые наработки по такому вопросу ?

Ссылка

← [bash][wget]post-запросы

[Expect] получить exit code команды →

если у каждого сайта свой движок, то универсальное решение не получится.

anonymous_sapiens ★★★★★
(14.06.11 23:28:44 MSK)

Ссылка

а в чём проблема?

shty ★★★★★
(14.06.11 23:33:06 MSK)

Ссылка

> есть ли какие-то открытые наработки по такому вопросу ?

есть. perl называется.

arsi ★★★★★
(14.06.11 23:35:09 MSK)

Ссылка

google: HTMLUnit

anonymous
(14.06.11 23:40:28 MSK)

XPath же.

archimag ★★★
(14.06.11 23:56:50 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.06.11 23:40:28 MSK

я знаю эту библиотеку, пропарсить html не проблема, даже если он невалидный. проблема вытянуть из разных страниц однотипный набор данных, не имеющий чётких критериев поиска , который надо отыскать среди кучи хлама.

к примеру, на одном сайте адрес пишется после слова «адрес :», на другом пишут сразу город улицу и номер дома без слова адрес сразу после названия, примерно то же самое и с телефоном и прочими интересующими деталями.

мыло вытянуть проще всего, но оно есть не везде, и вопрос в том чтоб чётко привязать его к названию предприятия, которое не имеет чётких критериев поиска.

также можно представить ситуацию, когда на одной странице есть данные по нескольким юрлицам, и если парсер общий для разных сайтов, то как его научить автоматом определять, где конец данных для одного юрлица и начало данных для следующего.

Voviandr ★
(15.06.11 00:04:16 MSK) автор топика

Ответ на: комментарий от Voviandr 15.06.11 00:04:16 MSK

вот библиотека

http://crfpp.sourceforge.net/

вот описание алгоритма парсинга нечетких данных

http://www.lrec-conf.org/proceedings/lrec2008/summaries/166.html

psv1967 ★★★★★
(15.06.11 00:29:06 MSK)

Ссылка

В Job

tensai_cirno ★★★★★
(15.06.11 08:45:01 MSK)

Ссылка

Задача сводится к созданию тьюринг-полного DSL, на котором будут запрограммированы шаблоны для выдергивания данных. Поэтому лучше не заниматься созданием велосипеда, а сразу взять Perl, Ruby или что там у вас в наличии и писать шаблоны под каждый сайт как есть. По мере накопления одинаковых фрагментов кода, выносить их в отдельный модуль.

~~geekless~~ ★★
(15.06.11 08:58:54 MSK)