LINUX.ORG.RU
ФорумTalks

[хочется странного] Карта википедии


0

2

Возникла идея по википедии построить карту - взять какую-нибудь статью, добавить статьи, которые на неё ссылаются, потом добавить статьи, которые ссылаются на эти статьи и так далее.

А полученный граф нарисовать чем-нибудь из graphviz'а. А, может быть, такое уже есть?

★★★★★

Учитывая количество статей и количество синего текста в каждой — тяжко будет.

dogbert ★★★★★ ()
Ответ на: комментарий от geekless

Не треснет. Главное, чтобы хоть что-то разглядеть можно было, что он выдаст. И как удобнее будет, кстати, через wikipedia api, или просто выдирать нужные ссылки со страницы?

GblGbl ★★★★★ ()

Я уверен, что такая таблица связей уже сидит в самой базе данных отдельно.

mclaudt ()
Ответ на: комментарий от GblGbl

> И как удобнее будет, кстати, через wikipedia api, или просто выдирать нужные ссылки со страницы?

Скачиваем дамп базы и выдираем, проблем-то. Зачем здесь API не представляю. Кроме того, можно хорошо распараллелить задачу.

Sadler ★★★ ()
Ответ на: комментарий от GblGbl

> У них дамп базы открыто доступен?

Да, конечно. Я себе скачал.

Sadler ★★★ ()
Ответ на: комментарий от GblGbl

> У нашей всего 16 гб. Как раз, к вечеру как раз скачается

И ещё её можно всю не распаковывать, читать софтиной прямо из архива. Производительность пониже, зато места не будет занимать столько. А параллелить всё равно придётся, иначе парсинг 16 ГБ может затянуться надолго.

Sadler ★★★ ()
Ответ на: комментарий от GblGbl

я думаю, под рекурсией он подразумевает циклы в полученном графе. но от зацикливания спасёт отметка о том, что эту страницу уже распарсили

memnek ()

Карта получится слишком примитивной: в центре - статья о Гитлере, а вокруг неё - три кольца ссылок.

Lighting ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.