LINUX.ORG.RU

Open Search Server 1.1

 open search server, ,


0

0

Вышел первый стабильный релиз Open Search Server 1.1.

Open Search Server — открытая (GPLv3) современная поисковая система, содержащая набор мощных алгоритмов полнотекстового поиска.

Особенности Open Search Server:

  • Многоязычное индексирование. Документы могут быть проиндексированы на шестнадцати языках (китайский, датский, голландский, английский, финский, французский, немецкий, венгерский, итальянский, норвежский, португальский, румынский, русский, испанский, шведский, турецкий);
  • Многоязычный анализатор разбивает предложения на слова, затем запускается морфологический анализ слов на основе языка документа (в версии 1.1 появилась поддержка синонимов и проверки орфографии);
  • Сканер обрабатывает веб-сайты и файловые системы для быстрого и легкого создания индекса;
  • Поддерживаются многочисленные форматы документов, такие как XML, HTML/XHTML, PDF, Microsoft Word, PowerPoint, OpenOffice и т.д.;
  • Веб-интерфейс построен на основе фреймворка Zkoss;
  • Легкая настройка через единый файл XML;
  • Быстрая интеграция благодаря XML формату запросов через HTTP (XML over HTTP).

Open Search Server работает на Windows 20xx/XP/Vista, MacOS X, Solaris и Linux + JVM.

О проекте

>>> Подробности

Ответ на: комментарий от timth

>теперь то гуголю точно капец

капец, не капец, а притухнут сто пудов... а может и русский язык прикрутят нормальный :)

shty ★★★★★
()

>Быстрая интеграция благодаря XML формату запросов через HTTP (XML over HTTP).

ппц, ниасилили SOAP+WSDL? ну на худой конец простой и банальный XML-RPC вызов... походу лисапед придумали.

Deleted
()

Скачал, а там в архиве Apache Lucene, Tomcat и какие-то файлики .php
ЧЯДНТ?

mannaz
()
Ответ на: комментарий от shty

http://www.mnogosearch.org/products.html

mnoGoSearch for UNIX is a free software covered by the GNU General Public License.

mnoGoSearch for Windows Pro/Lite is a shareware available under terms of mnoGoSearch for Windows Licence Agreement.

mnoGoSearch Pro 3.2 for Windows Standard Edition US$995.00

mnoGoSearch Pro 3.2 for Windows MSSQL Edition US$1750.00

mnoGoSearch Pro 3.2 for Windows Oracle Edition US$19850.00

mnoGoSearch Lite 3.2 for Windows US$99.00

Deleted
()
Ответ на: комментарий от kot_otbelivatel

>> SOAP+WSDL >Ну и вкусы у вас, товарищ.

а что собсно не так? для интеграции самое оно. вы хоть им пользовались?

Deleted
()

Я так понимаю это Apache Nutch + Solr + нормальный фронтэнд? Если не ошибаюсь, то очень хорошо - как раз в ближайшее время может пригодится для одной задачки.

krig
()
Ответ на: комментарий от ArsenShnurkov

инструкции просто ололо. перед берримором запятая. ну и четвёртый мускуль на отлично

bobrik
()

А кто знает его можно к Google App Engine прикрутить?

Arminos
()
Ответ на: комментарий от upcFrost

ну а почему бы с лохов лаве и не постричь? особенно с любителей оракла.

k0l0b0k ★★
()
Ответ на: комментарий от Deleted

> а что собсно не так? для интеграции самое оно. вы хоть им пользовались?

Я вот вынужден пользоваться, ужасный отстой. REST + json (yaml) наше все.

provaton ★★★★★
()

>Легкая настройка через единый файл XML;
Do not want. Что ж у всех за мания с этим xml возиться..

Neko
()

Интересно, насколько наивны эти их "мощные алгоритмы".

twosev ★★
()
Ответ на: комментарий от Deleted

2halturin:

>ну на худой конец простой и банальный XML-RPC вызов...
>походу лисапед придумали.

"Быстрая интеграция благодаря XML формату запросов через HTTP (XML over HTTP)" Это оно и есть.

MrBool
()

.docx - тоже обрабатывает? или только .doc?

Можно ли использовать как быстрый поиск с кэшем для любых типов файлов, а не только перечисленных?

anonymoos ★★★★★
()

Как оно масштабируется? поиск по рунету на нем поднять можно?

Reset ★★★★★
()

Интересно, а они стеммер русский в lucene правили как и я, или нет, так как там был стеммер забавный, не умел цифры выдавать и индекс по числам не строился?

я почему спрашиваю, скачал на посмотреть это чудо, а исходников то нету, наблюдаю гигантский ROOT.war где классы скомпилеванные лежат.

А так хотелось узнать как у них с русским стеммингом и посмотреть как же они индексируют M$ документы.

real_maverick ★★★
()
Ответ на: комментарий от real_maverick

>я почему спрашиваю, скачал на посмотреть это чудо, а исходников то нету, наблюдаю гигантский ROOT.war где классы скомпилеванные лежат.

в помощь, так сказать: http://opensearchserve.svn.sourceforge.net/viewvc/opensearchserve/trunk/

TOHbl4
()
Ответ на: комментарий от Deleted

нормально. нехай бабло с виндузятников стригут

Qasta
()

Хм... А как сделать, что бы в сабже русские имена файлов на виндовых шарах показывались нормально? А не "%D0%94%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B%20%D0%BF%D1%80%D0%BE%D0 %B5%D0%BA%D1%82%D0%BE%D0%"?

Harliff ★★★★★
()
Ответ на: комментарий от iogan18tm

> А у вас получилось стемминг к lucene (nutch) приделать?

угу - к обычной жабской люцене (последняя версия когда я ей занимался была 2.3.2)

real_maverick ★★★
()
Ответ на: комментарий от KRoN73

>Sphinx Search наше всё :)

Sphinx is a open-source SQL full-text search engine

>SQL full-text search engine


>SQL


Или я чего-то не понимаю, или ты пытаешься сравнивать поисковики разных категорий

Harliff ★★★★★
()
Ответ на: комментарий от Harliff

>Или я чего-то не понимаю, или ты пытаешься сравнивать поисковики разных категорий

Да, категории разные. Только, зуб даю, 90% тут присутствующих, тот же mnogoSearch или сабж юзает не для организации своей поисковой Интернет-машины, конкурента Гуглю или Яндексу, а для поиска по своему сайту. И тут становится непонятно, к чему долгий и утомительный процесс в виде SQL -> скрипты -> web-сервер -> сканер/парсер поисковика, при котором ещё и куча нужной информации теряется, типа даты, авторов, категорий и т.д., и т.п.

А тут мы имеем чистое сканирование БД (гарантированно полное, в отличии от сканирования сайта, кстати), быстрое, с индексацией всех нужных нам параметров.

Я не говорю, что Sphinx - полная замена для всех. Я говорю, что он удобнее mnogoSearch для большинства в этой теме :)

...

Кстати, сам на mnogoSearch сидел года два...

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

> Кому интересно потестировать на базе в 5+Гб текста - http://balancer.ru/tools/search/

у сфинкса, на сколько я помню, динамически индекс менять было нельзя (как то решалось конечно, но не так просто как в люсене)

real_maverick ★★★
()
Ответ на: комментарий от real_maverick

>динамически индекс менять было нельзя

Можно достраивать дельты и прозрачно их использовать вместе с основным индексом.

У меня, скажем, полный реиндекс проходит раз в неделю (5Гбайт индексировались на старой машине около 40 минут, на новой должно быть заметно быстрее, но скрипты пока смысла не вижу переписывать), а дельты достраиваются каждые 10 минут по контенту и каждую минуту по заголовкам.

>как то решалось конечно, но не так просто как в люсене


Дык, зато - поиск по произвольным полям, извлекаемым из БД :)

KRoN73 ★★★★★
()
Ответ на: комментарий от Deleted

> SOAP+WSDL

Кошмар, это без автокомплита человеком не применимо. JSON - то что на практике чаще всего подходит.

pythonist
()
Ответ на: комментарий от KRoN73

>90% тут присутствующих, тот же mnogoSearch или сабж юзает не для организации своей поисковой Интернет-машины, конкурента Гуглю или Яндексу, а для поиска по своему сайту.

Я пользую mnogosearch для организации поисковика в локалке прова. Работает. База 3+GB, ~500 тыс. ссылок. Все хорошо, но хотелось бы большего. Особенно в плане языка запросов.

NowhereMan
()
Ответ на: комментарий от NowhereMan

> Я пользую mnogosearch для организации поисковика в локалке прова. > Работает. База 3+GB, ~500 тыс. ссылок. Все хорошо, но хотелось бы > большего. Особенно в плане языка запросов.

А что хотелось бы увидеть в плане языка запросов, и вообще?

Shuric73
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.