LINUX.ORG.RU

А есть ли какие-то специфические инструменты и приёмы для парсинга википедии?

 ,


0

1

Сабж, собственно мне захотелось автоматически собрать некоторую информацию с википедии (и не важно что там могут быть и будут ошибки, там очень большой объём выборки) и обработать её весьма хитрым образом. Может есть готовые инструменты или опыт по массовой обработке именно этого ресурса? Не хочется чтобы меня по IP википедия забанила, наверное надо оффлайн копию парсить? Короче, поделитись опытом в этой сфере, если он у вас есть.

★★★★★

Ответ на: комментарий от Harald

Ну с дампом вроде как понятно. Интересуют инструменты, может есть что готовое, надо из шаблонов информацию выдирать. Городить свой велосипед или есть готовый? Вот в чем вопрос.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от MrClon

Вполне возможно. А как их отличить? Табличка справа страницы такой является? Например, табличка города, персоналии, компании...

peregrine ★★★★★
() автор топика
Последнее исправление: peregrine (всего исправлений: 1)

Опыт есть, но инструменты свои. Парсить само собой дампы, а не каждую страницу по HTTP тянуть. Посмотри wikidata, может, там достаточно для тебя данных и википедию парсить не нужно будет.

kardapoltsev ★★★★★
()
Ответ на: комментарий от kardapoltsev

само собой дампы, а не каждую страницу по HTTP тянуть.

Это зависит от цели. Тянуть ведь можно выборочно и возможно стянуть несколько (тысяч) страниц будет проще и дешевле, чем скачать дамп.

Einstok_Fair ★★☆
()

А есть ли какие-то специфические инструменты и приёмы для парсинга википедии?

Разумеется, есть. Высокий IQ...

anonymous
()
Ответ на: комментарий от peregrine

надо из шаблонов информацию выдирать.

Регэкспы же подойдут. Вполне себе инструмент. Конфигурируемый.

Я тут погрепал, например слово «кошка» встречается 10589 раз, а слово «станок» встречается 3066 раз.

Таким образом в России на один станок приходится более трёх кошек.

Einstok_Fair ★★☆
()
Ответ на: комментарий от anonymous

Предлагаешь прочитать 1.5 лимона статей и выписать ручкой из них нужные мне цифры?

Ах да, по теме мне подходит викидата, хотя качество и количество информации, получаемой, например, через https://query.wikidata.org/ оставляют желать лучшего. Похоже надо сначала бота для википедии пилить, чтобы он привел шаблоны в нормы, переместив ссылки из середины строк в них в конец. А то, что-то типа такого

Number of employees
80[1] (2016)
Парсится викидатой неправильно, а именно Number of employees 1.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от peregrine

Парсил вот этим: https://github.com/sweble/sweble-wikitext Строит DOM, можно его потом обойти ( я для своих целей развил пример swc-example-basic ). Тексты их дампа, обработанного этой штукой, получаются практически без мусора. Но информацию из инфобоксов не получить такого же качества, как на странице - многих полей может не быть. Как с этим бороться, кроме как скачиванием страниц только с целью получения инфобоксов, не понятно.

anymouse
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.