LINUX.ORG.RU

nutch + solr


0

0

Здравствуйте,

Я использую nutch как спайдер, и solr как индексатор. Меня смущает что nutch так медленно пробегает по сайтам, за две недели всего 700000 сайтов прошел, интернет канал хороший, тока мунин показывает Avg 88Kb/sec скачка значит можно еще в 10 ок раз увеличить кол потоков. У меня есть список урлов, миллионы записей, индексирую по 1000 уролов за раз, и nutch настроен на 10 потоков.

У кого есть опыт, подскажите как правильно индексировать, сколько надо одновременных потоков ставить, и может что еще чего я не знаю.

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.