История изменений
Исправление Sadler, (текущая версия) :
Вот так я генерил индексы:
По сути оно просто считает, сколько раз встречаются разные статьи по ссылкам и выводит: index \t title \t count \n , где index — порядковый номер. Сделано для того, чтобы не держать в памяти имена статей во время последнего этапа.
Как список рёбер отработает, можно запускать этот скрипт. на выходе будет mygraph3.csv , его можно переименовать в indexes.csv , а затем запускать саму укладку.
В укладке я поставил 1000 итераций максимум, должно хватить для нахождения устойчивого состояния. Результат, ссылка на котором в оригинальном посте, получился всего за 100 итераций.
Исходная версия Sadler, :
Вот так я генерил индексы:
По сути оно просто считает, сколько раз встречаются разные статьи по ссылкам и выводит: index \t title \t count \n , где index — порядковый номер. Сделано для того, чтобы не держать в памяти имена статей во время последнего этапа.
Как список рёбер отработает, можно запускать этот скрипт. на выходе будет mygraph3.csv , его можно переименовать в indexes.csv , а затем запускать саму укладку.
В укладке я поставил 1000 итераций максимум, должно хватить для нахождения устойчивого состояния.