LINUX.ORG.RU — Русская информация об ОС Linux

[#]  
firsttimeuser

Больше чем просто поиск...

Существующие поисковые технологии уже не в состоянии справляться со все растущим потоком неструктурированных даных. В море публично доступной информации становится все труднее найти нужный кусок...

Уже более четырех лет команда исследователей, состоящая из лингвистов и специалистов в области IT, при Middlebury College работает над проектом, призванным изменить устоявшийся подход к технологии поиска. Группа под руководством Арона Кобурна (Aaron Coburn) разрабатывает поисковый движок, который рассматривает запрос с точки зрения семантики, а не просто как набор ключевых слов. Простейший пример: результат запроса "фрукты" может включать документы, в которых упоминаются "яблоки" и "апельсины", или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Еще одна область для применения технологии, над которой трудятся авторы, это визуализация художественных произведений, буквально - построение графических связей между терминами в тексте. Таким образом создается удобный метод поиска по тексту, мгновенно дающий представление о взаимодействии персонажей произведения. С этой целью авторы рассчитывают провести индексацию как можно большего количества текстов, доступных из проекта Gutenberg.

Ядром технологии является экспериментальный поисковый движок код которого вместе с Perl-биндингами и всем необходимым для создания GUI доступен под GNU GPL. Позже в этом месяце авторы обещают выпустить пользовательское приложение для поиска на десктопе, основанное на даной технологии.

страница проекта http://www.knowledgesearch.org/

>>> Подробности

firsttimeuser ***** (26.09.2006 21:11:55)
Проверено: Shaman007 (26.09.2006 22:11:40)
Juick

[#]  
ip1981

Re: Больше чем просто поиск...

> или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт" даже если слово "Наполеон" в нем не встречается.

А на запрос "Патрег" найдёт "Бох"? =)

ip1981 ## (26.09.2006 22:16:37)
[#]  
isden

Re: Больше чем просто поиск...

сдается мне скоро их купит гугл...

isden ***** (26.09.2006 22:18:45)
[#]  

Re: Больше чем просто поиск...

Хм, сколько я не читал дисертаций и статей на тему семантического анализа, всегда получалось, что расширение запроса словами семантически близкими словам запроса, привносит больше шума, чем пользы.
Прошел по сцылке! Но так и не понял, на основе чего строятся семантические связи?? Каким алгоритмом? Если кто понял - отпишитесь (ибо ночь ужо, а завтра на работу)

ProtecT * (26.09.2006 22:26:19)
[#]  
bugmaker

Re: Больше чем просто поиск...

И наступит воистину Хавос. Мне довольно чясто гугль подсовывает ненужные ссылки, в которых искомого слова ну просто нету :(

bugmaker ****# (26.09.2006 22:33:27)
[#] Ответ на: Re: Больше чем просто поиск... от ProtecT 26.09.2006 22:26:19  

Re: Больше чем просто поиск...

>Хм, сколько я не читал дисертаций и статей на тему семантического анализа, всегда получалось, что расширение запроса словами семантически близкими словам запроса, привносит больше шума, чем пользы.

Зависит от выбора тезауруса. Проблема только в том, что нормального тезауруса для большинства языков нет. Есть, правда, хороший для английского, но и только.

Отсутствует морфология, что плохо.

Вдобавок хранение данных в SQL СУБД... короче, работать будет мееееееееееееееееееееедленно. Для поиска даже по десктопу не пригодно вовсе.

Сыро, крайне сыро.

anonymous (26.09.2006 22:34:33)
[#]  
gh0stwizard

Re: Больше чем просто поиск...

Что-то я не понял, нафиг они берутся за десктоп, если не сделали еще сервер? так модно чтоли =/

gh0stwizard **** (26.09.2006 22:41:04)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 26.09.2006 22:34:33  

Re: Больше чем просто поиск...

Хм... если сейчас на простой запрос выводи примерно несколько сотен ссылок, то что будет при "умном" отборе?.. те несколько сотен + еще порядка тысячи как-бы подходящих по описанию =\.. Жесть товарищи

anonymous (26.09.2006 22:41:47)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 26.09.2006 22:41:47  
shimon

Re: Больше чем просто поиск...

Я думать боюсь о том, что выдаст запрос "жириновский"...

shimon **** (26.09.2006 22:49:41)
[#]  
Killy

Re: Больше чем просто поиск...

просто надо уметь гуглить...

Killy * (26.09.2006 22:51:46)
[#] Ответ на: Re: Больше чем просто поиск... от Killy 26.09.2006 22:51:46  
BaBL

Re: Больше чем просто поиск...

а по слову стэк оно приплюсует буфер и выдаст Enlarge your penis?

BaBL * (26.09.2006 23:01:32)
[#] Ответ на: Re: Больше чем просто поиск... от Killy 26.09.2006 22:51:46  

Re: Больше чем просто поиск...

Блин, вот сам хотел это написать, респект единомышленникам!

anonymous (26.09.2006 23:04:22)
[#]  

Re: Больше чем просто поиск...

>или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Ну мужики дают... "Наполеон" обычно с воткой ассоциируются, а они Бонапарта какого-то подсовывают. Чуствую, что на запрос "Windows 95" будет результат "Операционная система"

anonymous (26.09.2006 23:13:38)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 26.09.2006 23:13:38  
isden

Re: Больше чем просто поиск...

> Ну мужики дают... "Наполеон" обычно с воткой ассоциируются, а они Бонапарта какого-то подсовывают.

коньяк батенька, коньяк =)))

isden ***** (26.09.2006 23:21:41)
[#] Ответ на: Re: Больше чем просто поиск... от isden 26.09.2006 23:21:41  

Re: Больше чем просто поиск...

>коньяк батенька, коньяк =)))

Коньяк, но ассоциируется с воткой.

anonymous (26.09.2006 23:24:21)
[#] Ответ на: Re: Больше чем просто поиск... от Killy 26.09.2006 22:51:46  

Re: Больше чем просто поиск...

> просто надо уметь гуглить...

Давай на конкретном примере.

29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

pv4 * (26.09.2006 23:24:24)
[#] Ответ на: Re: Больше чем просто поиск... от pv4 26.09.2006 23:24:24  

Re: Больше чем просто поиск...

>29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

Я пришел в магазин и хочу купить докторскую колбасу. Что мне сказать прдавщице, чтобы купить именно докторскую, ведь ледит и сервелат, и московская? "Дайте 300 г. докторской" не предлагать.

anonymous (26.09.2006 23:28:32)
[#]  

Re: Больше чем просто поиск...

Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

По сравнению с этим идея в сабже выглядит мелко, примерно на уровне поддержки падежей и склонений в языке.

Жаль что сервис пабсаб сейчас не работает :( Кто бы повторил, может яндекс осилит.

anonymous (26.09.2006 23:45:15)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 26.09.2006 23:28:32  

Re: Больше чем просто поиск...

> >29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

> Я пришел в магазин и хочу купить докторскую колбасу. Что мне сказать прдавщице, чтобы купить именно докторскую, ведь ледит и сервелат, и московская? "Дайте 300 г. докторской" не предлагать.

А что, если ты так скажешь, она тебе отвесит всего докторского, что там есть, причём чего-то по триста, а другого - по грамму?

pv4 * (26.09.2006 23:45:34)
[#]  

Re: Больше чем просто поиск...

тот кто реализует быстрый семантический поиск будет править миром. я думаю гугл уже нанял пару сотен мега умных Ph.D которые уже заняты этим вопросом.

zort # (27.09.2006 0:00:45)
[#] Ответ на: Re: Больше чем просто поиск... от pv4 26.09.2006 23:24:24  
Killy

Re: Больше чем просто поиск...

"glibc-2.5" -glibc-2.2 -glibc-2.3 -glibc-2.4

Killy * (27.09.2006 0:31:29)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 26.09.2006 23:13:38  

Re: Больше чем просто поиск...

> на запрос "Windows 95" будет результат "Операционная система"

...А так как наибольшее количество статей в сети про операционные
системы касаются линукса, то... выводим страницы про линукс! Правильно?

Ну очень далеко можно зайти рассматривая запрос с точки зрения
семантики. Хотел бы я, например, посмотреть на результат запроса по
фразе "длинная коса" ;)

annonymous ** (27.09.2006 0:33:50)
[#] Ответ на: Re: Больше чем просто поиск... от zort 27.09.2006 0:00:45  

Re: Больше чем просто поиск...

> тот кто реализует быстрый семантический поиск будет править миром.

Хм. Гугл уже правит миром. И для этого не понадобился семантический
поиск. Очередное buzzword.

annonymous ** (27.09.2006 0:38:13)
[#] Ответ на: Re: Больше чем просто поиск... от annonymous 27.09.2006 0:38:13  

Re: Больше чем просто поиск...

может для тебя семантика это buzzword ?

zort # (27.09.2006 0:49:28)
[#] Ответ на: Re: Больше чем просто поиск... от zort 27.09.2006 0:49:28  

Re: Больше чем просто поиск...

Не семантика, а "семантический поиск".

annonymous ** (27.09.2006 0:54:09)
[#]  
anonymousI

Re: Больше чем просто поиск...

Чуваки имеют мысль, ибо жалкие попытки использовать искусственные онтологии ни к чему кроме гимороя в больших масштабах привести не могут.

Так что будем следить и надеяться что SemanticWeb всё-таки появиться.

anonymousI * (27.09.2006 0:55:06)
[#]  

Re: Больше чем просто поиск...

Трата электричества. Авторов в биореактор, пользы больше будет. Лучше бы нейросети разрабатывали и ИИ.

anonymous (27.09.2006 1:03:01)
[#]  

Re: Больше чем просто поиск...

> или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Млять. У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали. Дурдом. Когда кампутир пытается думать, то человеку, как правило, остаётся только обхватывать голову руками и выть от безысходности.

anonymous (27.09.2006 1:09:13)
[#] Ответ на: Re: Больше чем просто поиск... от anonymousI 27.09.2006 0:55:06  

Re: Больше чем просто поиск...

Мысль у "чуваков" хоть и имеется, но оригинальностью не отличается, и
стройной теории под собой не имеет. По моему мнению, работающий рецепт -
это Bayesian статистический анализ текстов. Всё остальное от Лукавого.

annonymous ** (27.09.2006 1:11:24)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 26.09.2006 23:24:21  

Re: Больше чем просто поиск...

>> коньяк батенька, коньяк =)))

> Коньяк, но ассоциируется с воткой.

Это только у алкоголиков. У них и тройной одеколон тоже с водкой ассоциируется.

anonymous (27.09.2006 1:14:26)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 26.09.2006 23:45:15  

Re: Больше чем просто поиск...

> Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

Правильно. Вспомнил, что полгода назад статью интересную читал, даже ключевые слова помнишь и фамилию автора, а не найдёшь - хрен тебе. Ибо. Нех старьё читать. Лучше на-ка, почитай, что Сопчаг вчера отмочила.

anonymous (27.09.2006 1:19:54)
[#] Ответ на: Re: Больше чем просто поиск... от Killy 27.09.2006 0:31:29  

Re: Больше чем просто поиск...

> "glibc-2.5" -glibc-2.2 -glibc-2.3 -glibc-2.4

Правильно. И все статьи про 2.5, где вскользь упоминаются предыдущие версии, дружным строем отправились в биореактор. Зачем вообще нужен такой поиск?

anonymous (27.09.2006 1:23:30)
[#] Ответ на: Re: Больше чем просто поиск... от annonymous 27.09.2006 0:33:50  

Re: Больше чем просто поиск...

> Ну очень далеко можно зайти рассматривая запрос с точки зрения семантики. Хотел бы я, например, посмотреть на результат запроса по фразе "длинная коса" ;)

Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

anonymous (27.09.2006 1:26:53)
[#] Ответ на: Re: Больше чем просто поиск... от zort 27.09.2006 0:00:45  

Re: Больше чем просто поиск...

Семантика, семантика...

..у каждого человека она своя, не стоит это забывать.

catap **** (27.09.2006 1:35:41)
[#] Ответ на: Re: Больше чем просто поиск... от catap 27.09.2006 1:35:41  

Re: Больше чем просто поиск...

> Семантика, семантика.....у каждого человека она своя, не стоит это забывать.

Ориентироваться будут на быдло, оно примерно однородно. Оно запрограммировано рекламой и жёлтой прессой. Кроме того, его значительно больше.

anonymous (27.09.2006 1:39:29)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 27.09.2006 1:39:29  

Re: Больше чем просто поиск...

Тогда даже не интересно это писать.. эх..

catap **** (27.09.2006 2:03:54)
[#] Ответ на: Re: Больше чем просто поиск... от bugmaker 26.09.2006 22:33:27  
acheron

Re: Больше чем просто поиск...

> чясто гугль подсовывает ненужные ссылки, в которых искомого слова ну просто нету :(

У меня такое обычно бывает если искомое слово было в ссылке на страницу. Гугл сам пишет "слово было только в ссылке" если просматривать кэш. Как бы эту фичу отключить, сохранив поиск по всем остальным элементам?

Думаю, одним из основных вопросов к разработчикам будет "Как отключить ваш грёбаный тезаурус!?" :)

acheron **** (27.09.2006 2:09:42)
[#]  
mutronix

Re: Больше чем просто поиск...

Бредовая затея.

mutronix *** (27.09.2006 3:49:53)
[#] Ответ на: Re: Больше чем просто поиск... от ProtecT 26.09.2006 22:26:19  

Re: Больше чем просто поиск...

2 ProtecT

погугли:
"distributional clustering of English words" (Pereira at al - есть пдф), "support vector machines", "kernel methods" и оттудова дальше.
Публикаций на тему создания коммунитиз - море, типа модно сейчас (в большинстве своём - сферические кони в вакууме, имхо, по многим причинам)

Anode * (27.09.2006 7:09:15)
[#] Ответ на: Re: Больше чем просто поиск... от mutronix 27.09.2006 3:49:53  
Lockywolf

Re: Больше чем просто поиск...

косил косой косой косой!

и пусть разберется!

Lockywolf *** (27.09.2006 7:15:38)
[#] Ответ на: Re: Больше чем просто поиск... от zort 27.09.2006 0:00:45  

Re: Больше чем просто поиск...

> тот кто реализует быстрый семантический поиск будет править миром.

поищи echelon и ты узнаешь, кто правит бал в этой области, причем, уже очень давно.

добронежелатель

anonymous (27.09.2006 7:18:38)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 27.09.2006 1:26:53  

Re: Больше чем просто поиск...

> Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

bydlo@inet $ emerge -s "Фотки голых баб" Searching... [ Results for search key : Фотки голых баб ] [ Applications found : 0 ]

Фи отстойный поисковик

anonymous (27.09.2006 8:48:41)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 27.09.2006 1:39:29  
firsttimeuser

Re: Больше чем просто поиск...

> Ориентироваться будут на быдло, оно примерно однородно. Оно запрограммировано рекламой и жёлтой прессой. Кроме того, его значительно больше.

сегодня это называется "рыночная ниша"

firsttimeuser ***** (27.09.2006 8:53:24)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 27.09.2006 1:26:53  

Re: Больше чем просто поиск...

> Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

bydloo@inet $ esearch "фотки голых баб"
[ Results for search key : фотки голых баб ]
[ Applications found : 0 ]

Фи какой отстойный поисковик!

bydloo@inet $ esearch porn
[ Results for search key : porn ]
[ Applications found : 1 ]

* media-gfx/pornview
Latest version available: 0.2.0_pre1-r1
Latest version installed: [ Not Installed ]
Size of downloaded files: 1,783 kB
Homepage: http://pornview.sourceforge.net
Description: Image viewer/manager with optional support for MPEG movies.
License: GPL-2

Ну хоть что-то...

anonymous (27.09.2006 8:56:51)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 27.09.2006 1:26:53  

Re: Больше чем просто поиск...

Неужели, вводя "фотки голых баб", вы втайне мечтаете увидеть голых мужиков?

anonymous (27.09.2006 10:04:55)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 26.09.2006 23:45:15  
r

Re: Больше чем просто поиск...

>Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

Это звездец какой звездец. Искать надо в релевантной информации. "Последняя" это блоги, форумы и сайты вроде лора. Называется "хрен найдешь" информацию, в основном находится только упоминание о ней. Глупость короче.

r ***** (27.09.2006 11:11:28)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 27.09.2006 1:09:13  

Re: Больше чем просто поиск...

> У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали.

ИМХО, это зависит от того, как реализован семантический поиск. Скажем, если база фактов хранится в виде семантической сети, можно ведь задать запрос типа [найти все объекты X, такие, что существует связь "X написан Y" И Y.имя = "Бонапарт" И существует связь "Y is_a Z", где Z.имя = "император"]. Собственно, на Прологе такие вещи можно писать уже сейчас, остается дело за малым: организовать автоматический перевод текстовых документов в фактографическую базу и реализовать такой поиск по ней за приемлемое время. Всего-навсего. :-)

--

SVK

anonymous (27.09.2006 11:23:26)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 27.09.2006 11:23:26  

Re: Больше чем просто поиск...

s/И существует связь/И НЕ существует связь/

--

SVK

anonymous (27.09.2006 11:25:00)
[#] Ответ на: Re: Больше чем просто поиск... от pv4 26.09.2006 23:24:24  

Re: Больше чем просто поиск...

> 29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

Вот приколист. Пишешь в гугле glibc-2.5, идешь по первой же ссылке на maillist, а там чел пишет что 2.5 выходит 29, его справшивают а что там нового, а он отвечает что все уже написано в NEWS.

gloomdemon * (27.09.2006 11:28:15)
[#] Ответ на: Re: Больше чем просто поиск... от anonymous 27.09.2006 11:23:26  

Re: Больше чем просто поиск...

:D Вот "организовать автоматический перевод текстовых документов в фактографическую базу и реализовать" это самое интересное, особенно если правильно будет работать.

gloomdemon * (27.09.2006 11:31:27)
[#] Ответ на: Re: Больше чем просто поиск... от BaBL 26.09.2006 23:01:32  
Zerg324

Re: Больше чем просто поиск...

> а по слову стэк оно приплюсует буфер и выдаст Enlarge your penis?

нет, по этому слову оно выдаст ПСС Захер-Мазоха.

Zerg324 (27.09.2006 11:33:44)

О Сервере - Правила форума
http://www.linux.org.ru/

Rambler's Top100 Рейтинг@Mail.ru