LINUX.ORG.RU

Состоялся релиз распределённой системы поиска YaCy 1.0

 , ,


0

3

После пяти лет разработки тихо и незаметно вышла YaCy 1.0 - распределённая поисковая система.

YaCy - децентрализованный сервис, в настоящее время работают 600 пиров. Архитектура YaCy не позволяет какой-либо одной организации решать, какие страницы индексировать и в каком порядке располагать их в выдаче. Серверы YaCy работают на компьютерах пользователей, поисковые запросы перед отправкой шифруются. В отличие от привычных нам поисковых систем, при разработке YaCy большое внимание уделялось защите персональной информации пользователя. На компьютере пользователя сохраняются персональные индексы и рейтинги страниц, позвольяющие со временем улучшать качество поиска. Также YaCy можно использовать для поиска на определённом сайте или в пределах локальной сети.

Михаэль Кристен, руководитель проекта YaCy говорит: «Большинство нашей деятельности в сети связано с поиском. Поисковая система связывает нас с необходимой нам информацией. Мы не можем возложить такую жизненно важную функцию на несколько крупных компаний и расплачиваться за это своими личными данными. YaCy - необходимое звено между свободными пользователями и свободной информацией, она возвращает нам, пользователям, контроль над нашим поиском. „Каждый пользователь YaCy - часть большой поисковой сети. Система используется на таких ресурсах, как sciencenet.kit.edu, yacy.geocaching-portal.com и fsfe.org для поиска по сайтам. Поисковые индексы распространяются между серверами по протоколу p2p.

Карстен Герлофф, президент FSF Europe: „Мы уходим от необходимости централизованно контролировать сервисы. Мы понимаем, насколько важна независимость и инфраструктура, не имеющая единой точки отказа. В будущем мире распределённых систем свободные поисковые системы, такие как YaCy - важный элемент.“

Присоединиться к сети можно, установив YaCy на свой компьютер - инсталляция включает в себя crawler и веб-интерфейс для администрирования. Для работы YaCy требуется OpenJDK6 и около 4 Гб для индексов и страниц. Чтобы делиться информацией с другими узлами сети и принимать от них запросы на индексирование страниц (Senior mode в терминологии YaCy) может понадобиться проброс порта на маршрутизаторе. YaCy - кроссплатформенное приложение, распространяемое под лицензией GPL.

Сайт проекта
Поисковый портал (внимание, по ссылке - слэшдот-эффект)
Технические подробности на английском

>>> Оригинал новости в рассылке FSF Europe

★★★★★

Проверено: Shaman007 ()

Я бы поставил, но боюсь винт помрет от постоянной работы, старый он на сервачке. В этом плане i2p лучше.

KillTheCat ★★★★★ ()
Ответ на: комментарий от Chaser_Andrey

оверхед на хранение индексов уменьшить
QList, QMap, QHash и т.д., заюзать QVector и QVarLengthArray.
В дополнение можно было бы использовать egrep

ХАХАХАХАХАХАХАХХАХАХА! ЧУВАК, ЖЖОШ!

anonymous ()

около 4 Гб для индексов и страниц

Ну вот, а так хорошо всё начиналось. С такими требованиями не взлетит.

eugeno ★★★★★ ()
Ответ на: комментарий от eugeno

Там можно меньше. Это я, кажется, наврал немного. Но чем больше, тем лучше. Я отводил четыре. В принципе он и десять найдёт куда деть, и двадцать пять. Сколько не жалко на свержение Империи Добра.

Hoodoo ★★★★★ ()
Ответ на: комментарий от Hoodoo

Там можно меньше. Это я, кажется, наврал немного. Но чем больше, тем лучше. Я отводил четыре. В принципе он и десять найдёт куда деть, и двадцать пять. Сколько не жалко на свержение Империи Добра.

А это как-то влияет на результаты поиска?

eugeno ★★★★★ ()
Ответ на: комментарий от eugeno

По идее место на винте жрёт то, что отдаётся потом обратно - индексы. Наверное, может косвенно повлиять на скорость, но я не уверен. Но на VPS себе я его ставить не стал, например. Всё не соберусь никак джентльменский набор перетащить на нетбук, вот бы было бы здорово. Всё равно я им не пользуюсь по прямому назначению.

Hoodoo ★★★★★ ()
Ответ на: комментарий от Hoodoo

Подними ноду и натрави на pornolab и redtube, какие проблемы-то?

От анонимуса с верхней койки:

высказывание опровержало утверждение про ужасы без порнофильтра. С другой стороны - вы, товаrищ, спалились :)

anonymous ()

Я такую выдачу даже лет 10 назад не видел, настолько всё плохо.

anonymous ()

Вчера, как раз, игрался - на ЛОР её натравил и весь день индексировал. На ЛОРе столько внешних ссылок, что одного его достаточно чтобы покрыть пол рунета. Кстати ресурсов почти не жрёт, как и I2P.

С кириллицей всё хорошо. Порадовало: «Столлман - возможно вы имели в виду Столлманоугодные?».

Nebuchadnezzar ★★★★ ()
Ответ на: комментарий от Nebuchadnezzar

тоже на лор натравил. только по внешним ссылкам он у меня не переходит, говорит не соответствует шаблону поиска (что и правильно). А насчет порнолаба и рутрекера - robots.txt не пускает.

uspen ★★★★★ ()
Ответ на: комментарий от anonymous

the priority will be ignored on systems that do not support thread priorities (such as on Linux,...

В Linux потоки это просто «context of execution». Если нужно менять приоритеты - пользуйтесь fork'ом.

A-234 ★★★★★ ()
Ответ на: комментарий от Nebuchadnezzar

Вчера, как раз, игрался - на ЛОР её натравил и весь день индексировал. На ЛОРе столько внешних ссылок, что одного его достаточно чтобы покрыть пол рунета. Кстати ресурсов почти не жрёт, как и I2P.

кто не жрет? кого натравил? жаба-демон YaCy?

AVL2 ★★★★★ ()
Ответ на: комментарий от AVL2

Почему бы и нет... Если там i2p установлен, почему бы не поставить и сей софт?

fooser ()
Ответ на: комментарий от Karapuz

Если подумать о будущем, то, может, такая идея не кажется столь безумной?

Вопрос ещё в другом - зачем тогда с самого начала выбирать не совсем удачный (ИМХО) инструмент?

Chaser_Andrey ★★★★★ ()
Ответ на: комментарий от Chaser_Andrey

Если подумать о будущем, то, может, такая идея не кажется столь безумной?

о будущем? а что там будет?

Вопрос ещё в другом - зачем тогда с самого начала выбирать не совсем удачный (ИМХО) инструмент?

может люди как раз на основании своего опыта с C++ выбрали инструмент откуда мы знаем?

Karapuz ★★★★★ ()
Ответ на: комментарий от Karapuz

Будущее заключается в том, что объем индексов будет неуклонно расти, так же, как и затраты на их обработку.

Если есть возможность оптимизировать ПО - то почему её не использовать? В конце-концов, стратегия постоянного апгрейда железа на фоне лени оптимизировать/переписывать выглядит уе####ной.

может люди как раз на основании своего опыта с C++ выбрали инструмент откуда мы знаем?

Да, здесь лучше спросить самих разработчиков.

Chaser_Andrey ★★★★★ ()
Ответ на: комментарий от Chaser_Andrey

что объем индексов будет неуклонно расти, так же, как и затраты на их обработку

google доказал что такая система должна расти горизонтально, а не переписыванием кода на асемблере. вот когда в yacy будет 100M нодов, она приблизится к масштабам гугла

Если есть возможность оптимизировать ПО

этим занимается jit. или разрабы учтут все 8 архитектур и будут под все оптимизировать? им не надоест?

Karapuz ★★★★★ ()

Вот уж воистину подарок для СЕОшников. Достаточно сделать говносайт с упоминанием ключевика через слово, как этот сайт, скорее всего, будет самым первым. Ребята, конечно, молодцы, что запилили такую вещь, можно сделать местный локальный поиск по порталу\сайту, но вот с глобальным поиском, я думаю, ничего не получится. Рано или поздно это будет поиск по говносайтам. Так как, судя по всему, никакой защиты от таких гореоптимизаторов у системы нет.

anonymous ()
Ответ на: комментарий от anonymous

По идее ты полностью контролируешь свои результаты поиска. Увидел говносайт - убрал из выдачи. Утрясётся. Мне даже гугль по некоторым топикам выдаёт селевые потоки говна.

Кстати вынес таки всю эту явовскую компанию на отдельную машину, там осталось ещё кой-чего подшаманить, и буду собирать статистику по потреблению процессора и памяти.

Hoodoo ★★★★★ ()
Ответ на: комментарий от Karapuz

google доказал что такая система должна расти горизонтально, а не переписыванием кода на асемблере.

С первым утверждением согласен, со вторым - нет. Естественно, ассемблер - это слишком. Но если речь идёт о трудозатратах и удобности, то C++ совместно с Qt куда более похож на Java, чем на асм.

этим занимается jit. или разрабы учтут все 8 архитектур и будут под все оптимизировать? им не надоест?

ВНЕЗАПНО, этим занимается компилятор. Достаточно указать ему либо отдельные опции, либо, к примеру возьмем gcc, опции оптимизации вроде -O2 или -Os.

Также кроссплатформенные библиотеки или фреймворки обычно имеют внутренние платформозависимые оптимизации, о которых конечным разработчикам можно не беспокоиться.

Chaser_Andrey ★★★★★ ()

знаешь ли ты, как заставить ЭТО работать шустрее? Очень низкое значение PPM (страниц в минуту). В заданиях висит много сайтов, но обрабатывает почему-то один-два. Читал английскую вики (она устарела) по кастомизации производительности. Толком ничего не изменилось. PPM на уровне 20-60. Что дома, что на работе на мощной виртуалке.

ИМХО непонятно настраиваемая штука эта. Интерфейс не блещет продуманностью, нечего там калибровать. А если и ставишь значения, то clawer по-прежнему тормозит.

uspen ★★★★★ ()
Ответ на: комментарий от uspen

Меня гораздо больше заботит, как всё-таки выдачу для себя подрегулировать.

Hoodoo ★★★★★ ()
Ответ на: комментарий от Hoodoo

600 это когда он robots.txt собирает. Вообще шняга какая то: в очереди висит много сайтов, качает одновременно 3, и PPM около 20-30... Какие параметры ни крутил - все лажа.
Еще я обнаружил. Можно в RemoteCrawl_p.html поставить галку «Perform web indexing upon request of another peer.» и он будет индексировать с ремотных пиров. (но эта функция глючит - просто не работает или работает), а также в IndexImportOAIPMH_p.html качнуть листы со всех - канал и проц загрузит на полную и PPM будет около 1000-5000.

Но в общем сырое это yacy пока ИМХО. Но проект стоящий. Потратил на него свои нервы на изучение и настройку.

uspen ★★★★★ ()
Ответ на: комментарий от Hoodoo

ага, также. Пусть и понемногу, но работает, тем более железо простаивает пока. Может допилят со временем.

uspen ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.