LINUX.ORG.RU

Больше чем просто поиск...


0

0

Существующие поисковые технологии уже не в состоянии справляться со все растущим потоком неструктурированных даных. В море публично доступной информации становится все труднее найти нужный кусок...

Уже более четырех лет команда исследователей, состоящая из лингвистов и специалистов в области IT, при Middlebury College работает над проектом, призванным изменить устоявшийся подход к технологии поиска. Группа под руководством Арона Кобурна (Aaron Coburn) разрабатывает поисковый движок, который рассматривает запрос с точки зрения семантики, а не просто как набор ключевых слов. Простейший пример: результат запроса "фрукты" может включать документы, в которых упоминаются "яблоки" и "апельсины", или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Еще одна область для применения технологии, над которой трудятся авторы, это визуализация художественных произведений, буквально - построение графических связей между терминами в тексте. Таким образом создается удобный метод поиска по тексту, мгновенно дающий представление о взаимодействии персонажей произведения. С этой целью авторы рассчитывают провести индексацию как можно большего количества текстов, доступных из проекта Gutenberg.

Ядром технологии является экспериментальный поисковый движок код которого вместе с Perl-биндингами и всем необходимым для создания GUI доступен под GNU GPL. Позже в этом месяце авторы обещают выпустить пользовательское приложение для поиска на десктопе, основанное на даной технологии.

страница проекта http://www.knowledgesearch.org/

>>> Подробности

Re: Больше чем просто поиск...

> или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт" даже если слово "Наполеон" в нем не встречается.

А на запрос "Патрег" найдёт "Бох"? =)

ip1981 ☆☆ ()

Re: Больше чем просто поиск...

сдается мне скоро их купит гугл...

isden ★★★★★ ()

Re: Больше чем просто поиск...

Хм, сколько я не читал дисертаций и статей на тему семантического анализа, всегда получалось, что расширение запроса словами семантически близкими словам запроса, привносит больше шума, чем пользы.
Прошел по сцылке! Но так и не понял, на основе чего строятся семантические связи?? Каким алгоритмом? Если кто понял - отпишитесь (ибо ночь ужо, а завтра на работу)

ProtecT ()

Re: Больше чем просто поиск...

И наступит воистину Хавос. Мне довольно чясто гугль подсовывает ненужные ссылки, в которых искомого слова ну просто нету :(

bugmaker ★★★★☆ ()
Ответ на: Re: Больше чем просто поиск... от ProtecT

Re: Больше чем просто поиск...

>Хм, сколько я не читал дисертаций и статей на тему семантического анализа, всегда получалось, что расширение запроса словами семантически близкими словам запроса, привносит больше шума, чем пользы.

Зависит от выбора тезауруса. Проблема только в том, что нормального тезауруса для большинства языков нет. Есть, правда, хороший для английского, но и только.

Отсутствует морфология, что плохо.

Вдобавок хранение данных в SQL СУБД... короче, работать будет мееееееееееееееееееееедленно. Для поиска даже по десктопу не пригодно вовсе.

Сыро, крайне сыро.

anonymous ()

Re: Больше чем просто поиск...

Что-то я не понял, нафиг они берутся за десктоп, если не сделали еще сервер? так модно чтоли =/

gh0stwizard ★★★★★ ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

Хм... если сейчас на простой запрос выводи примерно несколько сотен ссылок, то что будет при "умном" отборе?.. те несколько сотен + еще порядка тысячи как-бы подходящих по описанию =\.. Жесть товарищи

anonymous ()

Re: Больше чем просто поиск...

просто надо уметь гуглить...

Killy ()

Re: Больше чем просто поиск...

>или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Ну мужики дают... "Наполеон" обычно с воткой ассоциируются, а они Бонапарта какого-то подсовывают. Чуствую, что на запрос "Windows 95" будет результат "Операционная система"

anonymous ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

> Ну мужики дают... "Наполеон" обычно с воткой ассоциируются, а они Бонапарта какого-то подсовывают.

коньяк батенька, коньяк =)))

isden ★★★★★ ()
Ответ на: Re: Больше чем просто поиск... от Killy

Re: Больше чем просто поиск...

> просто надо уметь гуглить...

Давай на конкретном примере.

29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

pv4 ★★ ()
Ответ на: Re: Больше чем просто поиск... от pv4

Re: Больше чем просто поиск...

>29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

Я пришел в магазин и хочу купить докторскую колбасу. Что мне сказать прдавщице, чтобы купить именно докторскую, ведь ледит и сервелат, и московская? "Дайте 300 г. докторской" не предлагать.

anonymous ()

Re: Больше чем просто поиск...

Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

По сравнению с этим идея в сабже выглядит мелко, примерно на уровне поддержки падежей и склонений в языке.

Жаль что сервис пабсаб сейчас не работает :( Кто бы повторил, может яндекс осилит.

anonymous ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

> >29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

> Я пришел в магазин и хочу купить докторскую колбасу. Что мне сказать прдавщице, чтобы купить именно докторскую, ведь ледит и сервелат, и московская? "Дайте 300 г. докторской" не предлагать.

А что, если ты так скажешь, она тебе отвесит всего докторского, что там есть, причём чего-то по триста, а другого - по грамму?

pv4 ★★ ()

Re: Больше чем просто поиск...

тот кто реализует быстрый семантический поиск будет править миром. я думаю гугл уже нанял пару сотен мега умных Ph.D которые уже заняты этим вопросом.

zort ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

> на запрос "Windows 95" будет результат "Операционная система"

...А так как наибольшее количество статей в сети про операционные
системы касаются линукса, то... выводим страницы про линукс! Правильно?

Ну очень далеко можно зайти рассматривая запрос с точки зрения
семантики. Хотел бы я, например, посмотреть на результат запроса по
фразе "длинная коса" ;)

annonymous ★★ ()
Ответ на: Re: Больше чем просто поиск... от zort

Re: Больше чем просто поиск...

> тот кто реализует быстрый семантический поиск будет править миром.

Хм. Гугл уже правит миром. И для этого не понадобился семантический
поиск. Очередное buzzword.

annonymous ★★ ()

Re: Больше чем просто поиск...

Чуваки имеют мысль, ибо жалкие попытки использовать искусственные онтологии ни к чему кроме гимороя в больших масштабах привести не могут.

Так что будем следить и надеяться что SemanticWeb всё-таки появиться.

anonymousI ()

Re: Больше чем просто поиск...

Трата электричества. Авторов в биореактор, пользы больше будет. Лучше бы нейросети разрабатывали и ИИ.

anonymous ()

Re: Больше чем просто поиск...

> или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Млять. У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали. Дурдом. Когда кампутир пытается думать, то человеку, как правило, остаётся только обхватывать голову руками и выть от безысходности.

anonymous ()
Ответ на: Re: Больше чем просто поиск... от anonymousI

Re: Больше чем просто поиск...

Мысль у "чуваков" хоть и имеется, но оригинальностью не отличается, и
стройной теории под собой не имеет. По моему мнению, работающий рецепт -
это Bayesian статистический анализ текстов. Всё остальное от Лукавого.

annonymous ★★ ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

>> коньяк батенька, коньяк =)))

> Коньяк, но ассоциируется с воткой.

Это только у алкоголиков. У них и тройной одеколон тоже с водкой ассоциируется.

anonymous ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

> Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

Правильно. Вспомнил, что полгода назад статью интересную читал, даже ключевые слова помнишь и фамилию автора, а не найдёшь - хрен тебе. Ибо. Нех старьё читать. Лучше на-ка, почитай, что Сопчаг вчера отмочила.

anonymous ()
Ответ на: Re: Больше чем просто поиск... от Killy

Re: Больше чем просто поиск...

> "glibc-2.5" -glibc-2.2 -glibc-2.3 -glibc-2.4

Правильно. И все статьи про 2.5, где вскользь упоминаются предыдущие версии, дружным строем отправились в биореактор. Зачем вообще нужен такой поиск?

anonymous ()
Ответ на: Re: Больше чем просто поиск... от annonymous

Re: Больше чем просто поиск...

> Ну очень далеко можно зайти рассматривая запрос с точки зрения семантики. Хотел бы я, например, посмотреть на результат запроса по фразе "длинная коса" ;)

Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

anonymous ()
Ответ на: Re: Больше чем просто поиск... от zort

Re: Больше чем просто поиск...

Семантика, семантика...

..у каждого человека она своя, не стоит это забывать.

catap ★★★★★ ()
Ответ на: Re: Больше чем просто поиск... от catap

Re: Больше чем просто поиск...

> Семантика, семантика.....у каждого человека она своя, не стоит это забывать.

Ориентироваться будут на быдло, оно примерно однородно. Оно запрограммировано рекламой и жёлтой прессой. Кроме того, его значительно больше.

anonymous ()
Ответ на: Re: Больше чем просто поиск... от bugmaker

Re: Больше чем просто поиск...

> чясто гугль подсовывает ненужные ссылки, в которых искомого слова ну просто нету :(

У меня такое обычно бывает если искомое слово было в ссылке на страницу. Гугл сам пишет "слово было только в ссылке" если просматривать кэш. Как бы эту фичу отключить, сохранив поиск по всем остальным элементам?

Думаю, одним из основных вопросов к разработчикам будет "Как отключить ваш грёбаный тезаурус!?" :)

acheron ★★★★ ()

Re: Больше чем просто поиск...

Бредовая затея.

mutronix ★★★★ ()
Ответ на: Re: Больше чем просто поиск... от ProtecT

Re: Больше чем просто поиск...

2 ProtecT

погугли:
"distributional clustering of English words" (Pereira at al - есть пдф), "support vector machines", "kernel methods" и оттудова дальше.
Публикаций на тему создания коммунитиз - море, типа модно сейчас (в большинстве своём - сферические кони в вакууме, имхо, по многим причинам)

Anode ()
Ответ на: Re: Больше чем просто поиск... от zort

Re: Больше чем просто поиск...

> тот кто реализует быстрый семантический поиск будет править миром.

поищи echelon и ты узнаешь, кто правит бал в этой области, причем, уже очень давно.

добронежелатель

anonymous ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

> Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

bydlo@inet $ emerge -s "Фотки голых баб" Searching... [ Results for search key : Фотки голых баб ] [ Applications found : 0 ]

Фи отстойный поисковик

anonymous ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

> Ориентироваться будут на быдло, оно примерно однородно. Оно запрограммировано рекламой и жёлтой прессой. Кроме того, его значительно больше.

сегодня это называется "рыночная ниша"

firsttimeuser ★★★★★ ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

> Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

bydloo@inet $ esearch "фотки голых баб"
[ Results for search key : фотки голых баб ]
[ Applications found : 0 ]

Фи какой отстойный поисковик!

bydloo@inet $ esearch porn
[ Results for search key : porn ]
[ Applications found : 1 ]

* media-gfx/pornview
Latest version available: 0.2.0_pre1-r1
Latest version installed: [ Not Installed ]
Size of downloaded files: 1,783 kB
Homepage: http://pornview.sourceforge.net
Description: Image viewer/manager with optional support for MPEG movies.
License: GPL-2

Ну хоть что-то...

anonymous ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

Неужели, вводя "фотки голых баб", вы втайне мечтаете увидеть голых мужиков?

anonymous ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

>Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

Это звездец какой звездец. Искать надо в релевантной информации. "Последняя" это блоги, форумы и сайты вроде лора. Называется "хрен найдешь" информацию, в основном находится только упоминание о ней. Глупость короче.

r ★★★★★ ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

> У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали.

ИМХО, это зависит от того, как реализован семантический поиск. Скажем, если база фактов хранится в виде семантической сети, можно ведь задать запрос типа [найти все объекты X, такие, что существует связь "X написан Y" И Y.имя = "Бонапарт" И существует связь "Y is_a Z", где Z.имя = "император"]. Собственно, на Прологе такие вещи можно писать уже сейчас, остается дело за малым: организовать автоматический перевод текстовых документов в фактографическую базу и реализовать такой поиск по ней за приемлемое время. Всего-навсего. :-)

--

SVK

anonymous ()
Ответ на: Re: Больше чем просто поиск... от pv4

Re: Больше чем просто поиск...

> 29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

Вот приколист. Пишешь в гугле glibc-2.5, идешь по первой же ссылке на maillist, а там чел пишет что 2.5 выходит 29, его справшивают а что там нового, а он отвечает что все уже написано в NEWS.

gloomdemon ()
Ответ на: Re: Больше чем просто поиск... от anonymous

Re: Больше чем просто поиск...

:D Вот "организовать автоматический перевод текстовых документов в фактографическую базу и реализовать" это самое интересное, особенно если правильно будет работать.

gloomdemon ()
Ответ на: Re: Больше чем просто поиск... от BaBL

Re: Больше чем просто поиск...

> а по слову стэк оно приплюсует буфер и выдаст Enlarge your penis?

нет, по этому слову оно выдаст ПСС Захер-Мазоха.

Zerg324 ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.