LINUX.ORG.RU
 
Hoodoo

Состоялся релиз распределённой системы поиска YaCy 1.0


0

3

После пяти лет разработки тихо и незаметно вышла YaCy 1.0 - распределённая поисковая система.

YaCy - децентрализованный сервис, в настоящее время работают 600 пиров. Архитектура YaCy не позволяет какой-либо одной организации решать, какие страницы индексировать и в каком порядке располагать их в выдаче. Серверы YaCy работают на компьютерах пользователей, поисковые запросы перед отправкой шифруются. В отличие от привычных нам поисковых систем, при разработке YaCy большое внимание уделялось защите персональной информации пользователя. На компьютере пользователя сохраняются персональные индексы и рейтинги страниц, позвольяющие со временем улучшать качество поиска. Также YaCy можно использовать для поиска на определённом сайте или в пределах локальной сети.

Михаэль Кристен, руководитель проекта YaCy говорит: "Большинство нашей деятельности в сети связано с поиском. Поисковая система связывает нас с необходимой нам информацией. Мы не можем возложить такую жизненно важную функцию на несколько крупных компаний и расплачиваться за это своими личными данными. YaCy - необходимое звено между свободными пользователями и свободной информацией, она возвращает нам, пользователям, контроль над нашим поиском. "Каждый пользователь YaCy - часть большой поисковой сети. Система используется на таких ресурсах, как sciencenet.kit.edu, yacy.geocaching-portal.com и fsfe.org для поиска по сайтам. Поисковые индексы распространяются между серверами по протоколу p2p.

Карстен Герлофф, президент FSF Europe: "Мы уходим от необходимости централизованно контролировать сервисы. Мы понимаем, насколько важна независимость и инфраструктура, не имеющая единой точки отказа. В будущем мире распределённых систем свободные поисковые системы, такие как YaCy - важный элемент."

Присоединиться к сети можно, установив YaCy на свой компьютер - инсталляция включает в себя crawler и веб-интерфейс для администрирования. Для работы YaCy требуется OpenJDK6 и около 4 Гб для индексов и страниц. Чтобы делиться информацией с другими узлами сети и принимать от них запросы на индексирование страниц (Senior mode в терминологии YaCy) может понадобиться проброс порта на маршрутизаторе. YaCy - кроссплатформенное приложение, распространяемое под лицензией GPL.

Сайт проекта
Поисковый портал (внимание, по ссылке - слэшдот-эффект)
Технические подробности на английском

>>> Оригинал новости в рассылке FSF Europe

ЗАСТАВЬ КОМПЬЮТЕР ПОЛИВАТЬ ОГОРОД

автоматизация своими руками: электроприборы под контролем компьютера
beware of programmers who carry screwdrivers!
http://www.unicontrollers.com/products/unc01x

[#] Ответ на: комментарий от Karapuz 29.11.2011 21:29:40  

Срояля?

Kate - KDE Advanced Text Editor

Eclipse и IDEA - IDE.

Давай уж сравнивать с KDevelop и QtCreator.

** ()
[#] Ответ на: комментарий от Chaser_Andrey 29.11.2011 21:37:35  

Ну KDevelop, какая разница. Ему 10Мб памяти хватает на все?

**** ()
[#] Ответ на: комментарий от Karapuz 29.11.2011 21:56:39  

Нет. Но ты же не будешь отрицать, что потребляет от меньше памяти, чем Eclipse?

** ()
[#] Ответ на: комментарий от Chaser_Andrey 29.11.2011 22:08:11  

меньше.
Т.е. ты предлагаешь людям переписать yacy на C++ чтобы оно жрало на клиенте не 512, а 450Мб?

**** ()
[#]  
KillTheCat

Я бы поставил, но боюсь винт помрет от постоянной работы, старый он на сервачке. В этом плане i2p лучше.

* ()
[#] Ответ на: комментарий от Chaser_Andrey 29.11.2011 21:27:16  
>>-----Цитата---->>

оверхед на хранение индексов уменьшить
QList, QMap, QHash и т.д., заюзать QVector и QVarLengthArray.
В дополнение можно было бы использовать egrep

<<-----Цитата----<<

ХАХАХАХАХАХАХАХХАХАХА! ЧУВАК, ЖЖОШ!

anonymous ()
[#] Ответ на: комментарий от fooser 29.11.2011 20:59:48  
>>-----Цитата---->>

Поставил сей софт на сервак,

<<-----Цитата----<<

но зачем?

***** ()
[#]  
eugeno
>>-----Цитата---->>

около 4 Гб для индексов и страниц

<<-----Цитата----<<

Ну вот, а так хорошо всё начиналось. С такими требованиями не взлетит.

* ()
[#] Ответ на: комментарий от eugeno 30.11.2011 0:13:05  
Hoodoo

Там можно меньше. Это я, кажется, наврал немного. Но чем больше, тем лучше. Я отводил четыре. В принципе он и десять найдёт куда деть, и двадцать пять. Сколько не жалко на свержение Империи Добра.

*** ()
[#] Ответ на: комментарий от Hoodoo 30.11.2011 0:17:45  
eugeno
>>-----Цитата---->>

Там можно меньше. Это я, кажется, наврал немного. Но чем больше, тем лучше. Я отводил четыре. В принципе он и десять найдёт куда деть, и двадцать пять. Сколько не жалко на свержение Империи Добра.

<<-----Цитата----<<

А это как-то влияет на результаты поиска?

* ()
[#] Ответ на: комментарий от eugeno 30.11.2011 0:58:06  
Hoodoo

По идее место на винте жрёт то, что отдаётся потом обратно - индексы. Наверное, может косвенно повлиять на скорость, но я не уверен. Но на VPS себе я его ставить не стал, например. Всё не соберусь никак джентльменский набор перетащить на нетбук, вот бы было бы здорово. Всё равно я им не пользуюсь по прямому назначению.

*** ()
[#] Ответ на: комментарий от Hoodoo 29.11.2011 20:28:42  
>>-----Цитата---->>

Подними ноду и натрави на pornolab и redtube, какие проблемы-то?

<<-----Цитата----<<

От анонимуса с верхней койки:

высказывание опровержало утверждение про ужасы без порнофильтра. С другой стороны - вы, товаrищ, спалились :)

anonymous ()
[#]  

Я такую выдачу даже лет 10 назад не видел, настолько всё плохо.

anonymous ()
[#]  
Nebuchadnezzar

Вчера, как раз, игрался - на ЛОР её натравил и весь день индексировал. На ЛОРе столько внешних ссылок, что одного его достаточно чтобы покрыть пол рунета. Кстати ресурсов почти не жрёт, как и I2P.

С кириллицей всё хорошо. Порадовало: "Столлман - возможно вы имели в виду Столлманоугодные?".

** ()
[#] Ответ на: комментарий от Nebuchadnezzar 30.11.2011 6:20:14  
uspen

тоже на лор натравил. только по внешним ссылкам он у меня не переходит, говорит не соответствует шаблону поиска (что и правильно). А насчет порнолаба и рутрекера - robots.txt не пускает.

** ()
[#] Ответ на: комментарий от uspen 30.11.2011 9:48:49  
Hoodoo

robots.txt надо уважать. :)

*** ()
[#] Ответ на: комментарий от anonymous 29.11.2011 17:50:37  
A-234

>the priority will be ignored on systems that do not support thread priorities (such as on Linux,...

В Linux потоки это просто "context of execution". Если нужно менять приоритеты - пользуйтесь fork'ом.

*** ()
[#] Ответ на: комментарий от Nebuchadnezzar 30.11.2011 6:20:14  
>>-----Цитата---->>

Вчера, как раз, игрался - на ЛОР её натравил и весь день индексировал. На ЛОРе столько внешних ссылок, что одного его достаточно чтобы покрыть пол рунета. Кстати ресурсов почти не жрёт, как и I2P.

<<-----Цитата----<<

кто не жрет? кого натравил? жаба-демон YaCy?

***** ()
[#] Ответ на: комментарий от AVL2 30.11.2011 0:01:36  
fooser

Почему бы и нет... Если там i2p установлен, почему бы не поставить и сей софт?

()
[#] Ответ на: комментарий от Karapuz 29.11.2011 22:24:31  

Если подумать о будущем, то, может, такая идея не кажется столь безумной?

Вопрос ещё в другом - зачем тогда с самого начала выбирать не совсем удачный (ИМХО) инструмент?

** ()
[#] Ответ на: комментарий от Chaser_Andrey 30.11.2011 14:32:48  
>>-----Цитата---->>

Если подумать о будущем, то, может, такая идея не кажется столь безумной?

<<-----Цитата----<<

о будущем? а что там будет?

>>-----Цитата---->>

Вопрос ещё в другом - зачем тогда с самого начала выбирать не совсем удачный (ИМХО) инструмент?

<<-----Цитата----<<

может люди как раз на основании своего опыта с C++ выбрали инструмент откуда мы знаем?

**** ()
[#] Ответ на: комментарий от Karapuz 30.11.2011 15:47:25  

Будущее заключается в том, что объем индексов будет неуклонно расти, так же, как и затраты на их обработку.

Если есть возможность оптимизировать ПО - то почему её не использовать? В конце-концов, стратегия постоянного апгрейда железа на фоне лени оптимизировать/переписывать выглядит уе####ной.

>>-----Цитата---->>

может люди как раз на основании своего опыта с C++ выбрали инструмент откуда мы знаем?

<<-----Цитата----<<

Да, здесь лучше спросить самих разработчиков.

** ()
[#] Ответ на: комментарий от Chaser_Andrey 30.11.2011 15:55:45  
>>-----Цитата---->>

что объем индексов будет неуклонно расти, так же, как и затраты на их обработку

<<-----Цитата----<<

google доказал что такая система должна расти горизонтально, а не переписыванием кода на асемблере. вот когда в yacy будет 100M нодов, она приблизится к масштабам гугла

>>-----Цитата---->>

Если есть возможность оптимизировать ПО

<<-----Цитата----<<

этим занимается jit. или разрабы учтут все 8 архитектур и будут под все оптимизировать? им не надоест?

**** ()
[#]  

Вот уж воистину подарок для СЕОшников. Достаточно сделать говносайт с упоминанием ключевика через слово, как этот сайт, скорее всего, будет самым первым. Ребята, конечно, молодцы, что запилили такую вещь, можно сделать местный локальный поиск по порталу\сайту, но вот с глобальным поиском, я думаю, ничего не получится. Рано или поздно это будет поиск по говносайтам. Так как, судя по всему, никакой защиты от таких гореоптимизаторов у системы нет.

anonymous ()
[#] Ответ на: комментарий от anonymous 01.12.2011 6:54:28  
Hoodoo

По идее ты полностью контролируешь свои результаты поиска. Увидел говносайт - убрал из выдачи. Утрясётся. Мне даже гугль по некоторым топикам выдаёт селевые потоки говна.

Кстати вынес таки всю эту явовскую компанию на отдельную машину, там осталось ещё кой-чего подшаманить, и буду собирать статистику по потреблению процессора и памяти.

*** ()
[#] Ответ на: комментарий от Karapuz 30.11.2011 17:10:54  
>>-----Цитата---->>

google доказал что такая система должна расти горизонтально, а не переписыванием кода на асемблере.

<<-----Цитата----<<

С первым утверждением согласен, со вторым - нет. Естественно, ассемблер - это слишком. Но если речь идёт о трудозатратах и удобности, то C++ совместно с Qt куда более похож на Java, чем на асм.

>>-----Цитата---->>

этим занимается jit. или разрабы учтут все 8 архитектур и будут под все оптимизировать? им не надоест?

<<-----Цитата----<<

ВНЕЗАПНО, этим занимается компилятор. Достаточно указать ему либо отдельные опции, либо, к примеру возьмем gcc, опции оптимизации вроде -O2 или -Os.

Также кроссплатформенные библиотеки или фреймворки обычно имеют внутренние платформозависимые оптимизации, о которых конечным разработчикам можно не беспокоиться.

** ()
[#] Ответ на: комментарий от anonymous 29.11.2011 14:15:30  
>>-----Цитата---->>

пистончик

<<-----Цитата----<<

Буэээээ... *долго_чистил_желудок*

()
[#]  
uspen

знаешь ли ты, как заставить ЭТО работать шустрее? Очень низкое значение PPM (страниц в минуту). В заданиях висит много сайтов, но обрабатывает почему-то один-два. Читал английскую вики (она устарела) по кастомизации производительности. Толком ничего не изменилось. PPM на уровне 20-60. Что дома, что на работе на мощной виртуалке.

ИМХО непонятно настраиваемая штука эта. Интерфейс не блещет продуманностью, нечего там калибровать. А если и ставишь значения, то clawer по-прежнему тормозит.

** ()
[#] Ответ на: комментарий от uspen 04.12.2011 17:33:07  
Hoodoo

Меня гораздо больше заботит, как всё-таки выдачу для себя подрегулировать.

*** ()
[#] Ответ на: комментарий от uspen 04.12.2011 17:33:07  
Hoodoo

PPM у меня получается около 300 - то 30, то 600.

*** ()
[#] Ответ на: комментарий от Hoodoo 04.12.2011 22:55:26  
uspen

600 это когда он robots.txt собирает. Вообще шняга какая то: в очереди висит много сайтов, качает одновременно 3, и PPM около 20-30... Какие параметры ни крутил - все лажа.
Еще я обнаружил. Можно в RemoteCrawl_p.html поставить галку "Perform web indexing upon request of another peer." и он будет индексировать с ремотных пиров. (но эта функция глючит - просто не работает или работает), а также в IndexImportOAIPMH_p.html качнуть листы со всех - канал и проц загрузит на полную и PPM будет около 1000-5000.

Но в общем сырое это yacy пока ИМХО. Но проект стоящий. Потратил на него свои нервы на изучение и настройку.

** ()
[#] Ответ на: комментарий от uspen 05.12.2011 0:07:52  
Hoodoo

С прискорбием соглашусь, но ноду оставлю. :)

*** ()
[#] Ответ на: комментарий от Hoodoo 05.12.2011 11:02:41  
uspen

ага, также. Пусть и понемногу, но работает, тем более железо простаивает пока. Может допилят со временем.

** ()