А есть ли какие-то специфические инструменты и приёмы для парсинга википедии?

0

1

Сабж, собственно мне захотелось автоматически собрать некоторую информацию с википедии (и не важно что там могут быть и будут ошибки, там очень большой объём выборки) и обработать её весьма хитрым образом. Может есть готовые инструменты или опыт по массовой обработке именно этого ресурса? Не хочется чтобы меня по IP википедия забанила, наверное надо оффлайн копию парсить? Короче, поделитись опытом в этой сфере, если он у вас есть.

Ссылка

← Text Based UI в 2к 18-ом (С/C++)

Not handling exceptions in background threads →

скачай дамп базы и парси сколько хочешь на локалхосте

Harald ★★★★★
(23.07.18 00:43:50 MSK)

Ответ на: комментарий от Harald 23.07.18 00:43:50 MSK

Ну с дампом вроде как понятно. Интересуют инструменты, может есть что готовое, надо из шаблонов информацию выдирать. Городить свой велосипед или есть готовый? Вот в чем вопрос.

peregrine ★★★★★
(23.07.18 00:45:36 MSK) автор топика

Ответ на: комментарий от peregrine 23.07.18 00:45:36 MSK

https://www.mediawiki.org/wiki/Alternative_parsers

Deleted
(23.07.18 01:04:44 MSK)

Ссылка

Ответ на: комментарий от peregrine 23.07.18 00:45:36 MSK

Случайно не из тех шаблонов которые из wikidata данные берут?

MrClon ★★★★★
(23.07.18 01:27:53 MSK)

Ответ на: комментарий от MrClon 23.07.18 01:27:53 MSK

Вполне возможно. А как их отличить? Табличка справа страницы такой является? Например, табличка города, персоналии, компании...

peregrine ★★★★★
(23.07.18 01:34:44 MSK) автор топика
Последнее исправление: peregrine 23.07.18 01:39:09 MSK (всего исправлений: 1)

Ссылка

Опыт есть, но инструменты свои. Парсить само собой дампы, а не каждую страницу по HTTP тянуть. Посмотри wikidata, может, там достаточно для тебя данных и википедию парсить не нужно будет.

kardapoltsev ★★★★★
(23.07.18 02:56:04 MSK)

Ответ на: комментарий от kardapoltsev 23.07.18 02:56:04 MSK

само собой дампы, а не каждую страницу по HTTP тянуть.

Это зависит от цели. Тянуть ведь можно выборочно и возможно стянуть несколько (тысяч) страниц будет проще и дешевле, чем скачать дамп.

~~Einstok_Fair~~ ★★☆
(23.07.18 03:01:05 MSK)

Ссылка

А есть ли какие-то специфические инструменты и приёмы для парсинга википедии?

Разумеется, есть. Высокий IQ...

anonymous
(23.07.18 03:51:53 MSK)

Ответ на: комментарий от peregrine 23.07.18 00:45:36 MSK

надо из шаблонов информацию выдирать.

Регэкспы же подойдут. Вполне себе инструмент. Конфигурируемый.

Я тут погрепал, например слово «кошка» встречается 10589 раз, а слово «станок» встречается 3066 раз.

Таким образом в России на один станок приходится более трёх кошек.

~~Einstok_Fair~~ ★★☆
(23.07.18 04:16:05 MSK)

Ссылка

Ответ на: комментарий от anonymous 23.07.18 03:51:53 MSK

Предлагаешь прочитать 1.5 лимона статей и выписать ручкой из них нужные мне цифры?

Ах да, по теме мне подходит викидата, хотя качество и количество информации, получаемой, например, через https://query.wikidata.org/ оставляют желать лучшего. Похоже надо сначала бота для википедии пилить, чтобы он привел шаблоны в нормы, переместив ссылки из середины строк в них в конец. А то, что-то типа такого

Number of employees
80[1] (2016)

Парсится викидатой неправильно, а именно Number of employees 1.

peregrine ★★★★★
(23.07.18 04:33:23 MSK) автор топика

Ссылка

https://github.com/molybdenum-99/infoboxer

theNamelessOne ★★★★★
(24.07.18 13:20:41 MSK)

Ссылка

Ответ на: комментарий от peregrine 23.07.18 00:45:36 MSK

Парсил вот этим: https://github.com/sweble/sweble-wikitext Строит DOM, можно его потом обойти ( я для своих целей развил пример swc-example-basic ). Тексты их дампа, обработанного этой штукой, получаются практически без мусора. Но информацию из инфобоксов не получить такого же качества, как на странице - многих полей может не быть. Как с этим бороться, кроме как скачиванием страниц только с целью получения инфобоксов, не понятно.

anymouse ★
(24.07.18 23:39:05 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Text Based UI в 2к 18-ом (С/C++)

Development

Not handling exceptions in background threads →

Похожие темы