LINUX.ORG.RU

Состоялся релиз распределённой системы поиска YaCy 1.90

 ,


2

3

Спустя более года разработки состоялся релиз YaCy 1.90.

YaCy — децентрализованный сервис, в настоящее время работают 600 пиров. Архитектура YaCy не позволяет какой-либо одной организации решать, какие страницы индексировать и в каком порядке располагать их в выдаче. Сервера YaCy работают на компьютерах пользователей, поисковые запросы перед отправкой шифруются. В отличие от привычных нам поисковых систем, при разработке YaCy большое внимание уделялось защите персональной информации пользователя. На компьютере пользователя сохраняются персональные индексы и рейтинги страниц, позволяющие со временем улучшать качество поиска. Также YaCy можно использовать для поиска на определённом сайте или в пределах локальной сети.

Среди множества изменений и исправлений ошибок в этом релизе наиболее значимые изменения:

  • Добавлена возможность перевода текста и сохранения локальной переведенной копии.
  • Добавлена поддержка сжатых SWF-файлов.
  • Улучшена поддержка BMP, ICO и PNG.
  • Добавлена поддержка индексирования AJAX-сайтов.
  • Произведена миграция на Solr 5.2, который работает намного быстрее, чем Solr 4.x. Разработчики рекомендуют после обновления переиндексировать все локальные данные YaCy.
  • Улучшена поддержка часовых поясов для индексированных данных.
  • Добавлено отображение даты в списке результатов поиска.
  • Добавлен новый способ навигации среди результатов поиска — по дате. Также теперь можно фильтровать данные по дате, указывая диапазон.
  • По умолчанию теперь данные количества индексированных документов за конкретные даты визуализируются в виде гистограммы.

Каждый может начать пользоваться YaCy прямо сейчас, произведя простую установку ноды или используя любую чужую ноду.

>>> Подробности

А можно где-то потыкать без установки? Интересно, как он ищет.

CYB3R ★★★★★ ()

распределённой системы поиска

Никогда не слышал о таком! Если она заткнет гуглояндексы и всякие там роскомпозоры, то таким типов ПО - будущее!

anonymous ()
Ответ на: комментарий от CYB3R

Медленно и нерелевантно. С русскими запросами вообще какой-то рандомный список страниц выдает.

Aleksman ()
Ответ на: комментарий от anonymous

Написал банальный запрос «linux wikipedia». Ожидал получить первой ссылкой страницу википедии про ядро Linux (предполагаю, что википедия уж точно проиндексирована этим поисковиком). Получил первой ссылкой какую-то игру, второй ссылкой статью на википедии про какой-то не очень известный дистрибутив Linux (то есть википедия таки проиндексирована).

Малая база поиска вполне понятна (ибо у проекта на порядки меньше поисковых ботов, чем у какого-нибудь гугла), но даже в этой базе оно ищет плохо, а вот это уже печально.

KivApple ★★★★★ ()

Релевантности как не было, так и нет?

quantum-troll ★★★★★ ()
Ответ на: комментарий от quantum-troll

Подними ноду @ Повысь релевантность.

anonymous ()

Попробовал несколько запросов. Что-то как-то плохо оно ищет. Релевантность низкая по сравнению с SearX (не говоря уж про гуглояндексы). Тем не менее сама идея мне очень нравится. Надеюсь, оно будет развиваться, и эта проблема будет пофикшена, чтобы искалось (хотя бы по более-менее популярным сайтам уж) хотя бы сравнимо с уровнем SearX и duckduckgo.

upd: а теперь на http://search.yacy.de/ вообще похоже лор-эффект случился.

Psych218 ★★★★★ ()
Последнее исправление: Psych218 (всего исправлений: 1)
Ответ на: комментарий от quantum-troll

Му так тыж не в холостую его будешь гонять, проиндексируй ЛОР.

anonymous ()

разьясните на пальцах, чего оно индексирует
поисковые запросы самого пользователя ?

kto_tama ★★★★★ ()
Ответ на: комментарий от anonymous

Смотри, я ввожу в поисковик слово из трёх букв: lsd. Что же я ожидаю?

Поисковик здорового человека выдаст ссылку на википедию или erowid, или на статью на сайте про злые наркотики, или хотя бы на хим. справочник, с информацией по растворимости ДЛК в воде, спирте или петролейном эфире.

Что же выдаёт нода yacy:
- Un mondo migliore. Un mondo nuovo. Ogni giorno.
- Шины Cooper
- Статью на whale.to
- Википедия: LSD-42 (но это корабль! USS Germantown)
- /r/LSD
- ...
- LSD Information Technology: http://www.lsd.co.za/ (SAP-решения на Linux)
- ...
- Русскоязычная википедия: Lsd (аж на пятой странице!)

Ну разве этим возможно пользоваться?

quantum-troll ★★★★★ ()

Вместо инструкций по установке предлагают посмотреть видео!

При запросе «google» первой ссылкой выдаёт какой-то http://google.lap.hu/, второй статью о гугле во французской википедии, и т.д.

Pythagoras ★★ ()
Ответ на: комментарий от Pythagoras

The installation takes only three minutes. Just download the release, decompress the package and run the start script. On linux you need OpenJDK7. You don't need to install external databases or a web server, everything is already included in YaCy.

Не юниксвейно!

Pythagoras ★★ ()
Ответ на: комментарий от quantum-troll

Суть этого ответа в том что скорее всего этот сервак уже загружен либо у него нет знания о других нодах где есть искомая тебе информация. Это по своей сути p2p система, со всеми вытекающими...

Можешь попытать удачу здесь http://www.yacyweb.de/peers.htm

anonymous ()
Ответ на: комментарий от anonymous

Я поднимал, оно год висело, что-то делало... Потом я не понял зачем оно мне и удалил.

nixargh ()
Ответ на: комментарий от nixargh

То же самое :-)

Ничего, когда плохо будет, вспомним об этой штуке, нод будет больше и будет лучше

uspen ★★★★★ ()

На запрос «xperia zr cyanogenmod» 0 результатов. У яндекса 128тыс. результатов, у гугла 131тыс. Пробовал на разных нодах. Ладно бы на порядок отличалось количество, ну ладно даже на 2 порядка, но совсем 0 это совсем фэйл.

Loki13 ★★★★★ ()
Последнее исправление: Loki13 (всего исправлений: 1)

С трудом представляю себе количество нод, необходимых для хранения и обработки вменяемого количества информации

frost_ii ★★★★ ()
Ответ на: комментарий от anonymous

Никогда не слышал о таком! Если она заткнет гуглояндексы и всякие там роскомпозоры, то таким типов ПО - будущее!

Системе уже больше 10 лет (точнее не скажу, но в 2005-м уже была). Задумка прекрасная, но вот с реализацией пока так себе...

Когда нудно искать всякие забаненные торренты, удобнее воспользоваться тем же DuckDuckGo. Оно хоть централизованно-проприетарное и алгоритмы так себе, но пока не банит ресурсы :)

KRoN73 ★★★★★ ()
Ответ на: комментарий от KivApple

Малая база поиска вполне понятна (ибо у проекта на порядки меньше поисковых ботов, чем у какого-нибудь гугла)

Оно p2p :) И ботов там дофига.

KRoN73 ★★★★★ ()
Ответ на: комментарий от anonymous

на их сайте есть ссылка на демо портал

Не работает...

Odalist ★★★★★ ()
Ответ на: комментарий от KRoN73

в настоящее время работают 600 пиров

Это мало на самом деле. У меня нет точных данных, но я думаю, что у какого-нибудь гугла тысячи или даже десятки тысяч машин, которые сканируют Интернет. Причём у каждой из них хороший и толстый канал.

KivApple ★★★★★ ()
Ответ на: комментарий от KivApple

У гугла целый ботнет из виндузятников, так что таких машин миллионы.

anonymous ()

Красавы! Нужно! Годно! Java рулит!

Sociopsih ★★ ()
Ответ на: комментарий от KivApple

Присоединяйся, количество нод увеличится. Пригласи знакомых.

anonymous00 ()

В поисковике важно хорошее железо. Проект не взлетит.

Stalin ★★★★★ ()

Вобщем, установил я эту штуку пощупать. Вместо 600 узлов всего 400, из них индексирующих раза в 3 меньше.

Миллиард проиндексированныых сетью документов - это много или мало?

Запустил индексацию Лора:)

Pythagoras ★★ ()
Ответ на: комментарий от Pythagoras

С приватностью у неё ещё хуже, чем у гугла: либо сам индексируй весь интернет целиком, либо твои запросы будут рассылаться открытым текстом по всей сети безо всякого https.

Pythagoras ★★ ()

Как представлю, сколько оно должно жрать места на компьютерах пользователей и грузить их связь с железом...

Napilnik ★★★★★ ()

Запускал эту шнягу на малине второй. Флешку в f2fs ушатывает месяца за три.

Запрос обрабатывает ну очень долго и на каждое обновление порой свой результат.

Radjah ★★★ ()

до сих пор на яве? не нужно. жрет ресурсы, медленно и нерелевантно (держал ноду месяцев 8)

Suicide_inc ()

Архитектура YaCy не позволяет какой-либо одной организации решать, какие страницы индексировать и в каком порядке располагать их в выдаче

это будет делать совет директоров

gray ★★★★★ ()

Стабильно раз в год натыкаюсь на новость с кучей улучшений. Иногда поднимаю и пускаю индексацию. Каждый раз оно жрёт кучу ресурсов и почти ничего не ищет даже с использованием DHT.

sand_circle ()
Ответ на: комментарий от BAVARIAN_DEMON

Три дня я гналась за Вами — да! — чтобы сказать Вам, как Вы мне безразличны!

Спасибо за новость!

Пожалуйста. :-)

anonymous00 ()

Зачем это нужно? Максимум что нужно - каталог сайтов: тут храним аниме, тут - тексты по программированию, тут - администрирование, тут - ... Самое главное найти сайт где есть то что тебе нужно в нужном виде. А то попробуй написать в яндексе смотреть $$ без флеш - обязательно где-то да появится флеш плеер.

anonymous ()
Ответ на: комментарий от kto_tama

Ликбез для всех:
1. Оно позволяет вручную проиндексировать сайт. И поставить переиндексацию, к примеру, раз в неделю. Естественно, вы и храните проиндексированные данные, предоставляя окружающим.
2. Вы настраиваете браузер на ноду как на прозрачный прокси, после чего оно индексирует страницы, по которым вы ходите. В итоге вы храните базу индекса, релевантную вашим интересам. Этот режим помогает тем, кто что-то ожесточённо гуглит по определённой теме. Результаты поиска становятся релевантными лично для тебя. Без рекламы.

Stage1 ★★ ()
Ответ на: комментарий от Stage1

эта распределенная система хранит данные в солр
солр - это томкат
томкат - это жаба
мне кажется, тяжеловатая схема для хранения индекса

kto_tama ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.