LINUX.ORG.RU

Больше чем просто поиск...


0

0

Существующие поисковые технологии уже не в состоянии справляться со все растущим потоком неструктурированных даных. В море публично доступной информации становится все труднее найти нужный кусок...

Уже более четырех лет команда исследователей, состоящая из лингвистов и специалистов в области IT, при Middlebury College работает над проектом, призванным изменить устоявшийся подход к технологии поиска. Группа под руководством Арона Кобурна (Aaron Coburn) разрабатывает поисковый движок, который рассматривает запрос с точки зрения семантики, а не просто как набор ключевых слов. Простейший пример: результат запроса "фрукты" может включать документы, в которых упоминаются "яблоки" и "апельсины", или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Еще одна область для применения технологии, над которой трудятся авторы, это визуализация художественных произведений, буквально - построение графических связей между терминами в тексте. Таким образом создается удобный метод поиска по тексту, мгновенно дающий представление о взаимодействии персонажей произведения. С этой целью авторы рассчитывают провести индексацию как можно большего количества текстов, доступных из проекта Gutenberg.

Ядром технологии является экспериментальный поисковый движок код которого вместе с Perl-биндингами и всем необходимым для создания GUI доступен под GNU GPL. Позже в этом месяце авторы обещают выпустить пользовательское приложение для поиска на десктопе, основанное на даной технологии.

страница проекта http://www.knowledgesearch.org/

>>> Подробности

> или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт" даже если слово "Наполеон" в нем не встречается.

А на запрос "Патрег" найдёт "Бох"? =)

ip1981 ☆☆
()

сдается мне скоро их купит гугл...

isden ★★★★★
()

Хм, сколько я не читал дисертаций и статей на тему семантического анализа, всегда получалось, что расширение запроса словами семантически близкими словам запроса, привносит больше шума, чем пользы.
Прошел по сцылке! Но так и не понял, на основе чего строятся семантические связи?? Каким алгоритмом? Если кто понял - отпишитесь (ибо ночь ужо, а завтра на работу)

ProtecT
()

И наступит воистину Хавос. Мне довольно чясто гугль подсовывает ненужные ссылки, в которых искомого слова ну просто нету :(

bugmaker ★★★★☆
()
Ответ на: комментарий от ProtecT

>Хм, сколько я не читал дисертаций и статей на тему семантического анализа, всегда получалось, что расширение запроса словами семантически близкими словам запроса, привносит больше шума, чем пользы.

Зависит от выбора тезауруса. Проблема только в том, что нормального тезауруса для большинства языков нет. Есть, правда, хороший для английского, но и только.

Отсутствует морфология, что плохо.

Вдобавок хранение данных в SQL СУБД... короче, работать будет мееееееееееееееееееееедленно. Для поиска даже по десктопу не пригодно вовсе.

Сыро, крайне сыро.

anonymous
()

Что-то я не понял, нафиг они берутся за десктоп, если не сделали еще сервер? так модно чтоли =/

gh0stwizard ★★★★★
()
Ответ на: комментарий от anonymous

Хм... если сейчас на простой запрос выводи примерно несколько сотен ссылок, то что будет при "умном" отборе?.. те несколько сотен + еще порядка тысячи как-бы подходящих по описанию =\.. Жесть товарищи

anonymous
()
Ответ на: комментарий от anonymous

Я думать боюсь о том, что выдаст запрос "жириновский"...

shimon ★★★★★
()
Ответ на: комментарий от Killy

Блин, вот сам хотел это написать, респект единомышленникам!

anonymous
()

>или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Ну мужики дают... "Наполеон" обычно с воткой ассоциируются, а они Бонапарта какого-то подсовывают. Чуствую, что на запрос "Windows 95" будет результат "Операционная система"

anonymous
()
Ответ на: комментарий от anonymous

> Ну мужики дают... "Наполеон" обычно с воткой ассоциируются, а они Бонапарта какого-то подсовывают.

коньяк батенька, коньяк =)))

isden ★★★★★
()
Ответ на: комментарий от Killy

> просто надо уметь гуглить...

Давай на конкретном примере.

29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

pv4 ★★
()
Ответ на: комментарий от pv4

>29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

Я пришел в магазин и хочу купить докторскую колбасу. Что мне сказать прдавщице, чтобы купить именно докторскую, ведь ледит и сервелат, и московская? "Дайте 300 г. докторской" не предлагать.

anonymous
()

Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

По сравнению с этим идея в сабже выглядит мелко, примерно на уровне поддержки падежей и склонений в языке.

Жаль что сервис пабсаб сейчас не работает :( Кто бы повторил, может яндекс осилит.

anonymous
()
Ответ на: комментарий от anonymous

> >29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

> Я пришел в магазин и хочу купить докторскую колбасу. Что мне сказать прдавщице, чтобы купить именно докторскую, ведь ледит и сервелат, и московская? "Дайте 300 г. докторской" не предлагать.

А что, если ты так скажешь, она тебе отвесит всего докторского, что там есть, причём чего-то по триста, а другого - по грамму?

pv4 ★★
()

тот кто реализует быстрый семантический поиск будет править миром. я думаю гугл уже нанял пару сотен мега умных Ph.D которые уже заняты этим вопросом.

zort
()
Ответ на: комментарий от anonymous

> на запрос "Windows 95" будет результат "Операционная система"

...А так как наибольшее количество статей в сети про операционные
системы касаются линукса, то... выводим страницы про линукс! Правильно?

Ну очень далеко можно зайти рассматривая запрос с точки зрения
семантики. Хотел бы я, например, посмотреть на результат запроса по
фразе "длинная коса" ;)

annonymous ★★
()
Ответ на: комментарий от zort

> тот кто реализует быстрый семантический поиск будет править миром.

Хм. Гугл уже правит миром. И для этого не понадобился семантический
поиск. Очередное buzzword.

annonymous ★★
()

Чуваки имеют мысль, ибо жалкие попытки использовать искусственные онтологии ни к чему кроме гимороя в больших масштабах привести не могут.

Так что будем следить и надеяться что SemanticWeb всё-таки появиться.

anonymousI
()

Трата электричества. Авторов в биореактор, пользы больше будет. Лучше бы нейросети разрабатывали и ИИ.

anonymous
()

> или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Млять. У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали. Дурдом. Когда кампутир пытается думать, то человеку, как правило, остаётся только обхватывать голову руками и выть от безысходности.

anonymous
()
Ответ на: комментарий от anonymousI

Мысль у "чуваков" хоть и имеется, но оригинальностью не отличается, и
стройной теории под собой не имеет. По моему мнению, работающий рецепт -
это Bayesian статистический анализ текстов. Всё остальное от Лукавого.

annonymous ★★
()
Ответ на: комментарий от anonymous

>> коньяк батенька, коньяк =)))

> Коньяк, но ассоциируется с воткой.

Это только у алкоголиков. У них и тройной одеколон тоже с водкой ассоциируется.

anonymous
()
Ответ на: комментарий от anonymous

> Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

Правильно. Вспомнил, что полгода назад статью интересную читал, даже ключевые слова помнишь и фамилию автора, а не найдёшь - хрен тебе. Ибо. Нех старьё читать. Лучше на-ка, почитай, что Сопчаг вчера отмочила.

anonymous
()
Ответ на: комментарий от Killy

> "glibc-2.5" -glibc-2.2 -glibc-2.3 -glibc-2.4

Правильно. И все статьи про 2.5, где вскользь упоминаются предыдущие версии, дружным строем отправились в биореактор. Зачем вообще нужен такой поиск?

anonymous
()
Ответ на: комментарий от annonymous

> Ну очень далеко можно зайти рассматривая запрос с точки зрения семантики. Хотел бы я, например, посмотреть на результат запроса по фразе "длинная коса" ;)

Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

anonymous
()
Ответ на: комментарий от catap

> Семантика, семантика.....у каждого человека она своя, не стоит это забывать.

Ориентироваться будут на быдло, оно примерно однородно. Оно запрограммировано рекламой и жёлтой прессой. Кроме того, его значительно больше.

anonymous
()
Ответ на: комментарий от anonymous

Тогда даже не интересно это писать.. эх..

catap ★★★★★
()
Ответ на: комментарий от bugmaker

> чясто гугль подсовывает ненужные ссылки, в которых искомого слова ну просто нету :(

У меня такое обычно бывает если искомое слово было в ссылке на страницу. Гугл сам пишет "слово было только в ссылке" если просматривать кэш. Как бы эту фичу отключить, сохранив поиск по всем остальным элементам?

Думаю, одним из основных вопросов к разработчикам будет "Как отключить ваш грёбаный тезаурус!?" :)

acheron ★★★★
()
Ответ на: комментарий от ProtecT

2 ProtecT

погугли:
"distributional clustering of English words" (Pereira at al - есть пдф), "support vector machines", "kernel methods" и оттудова дальше.
Публикаций на тему создания коммунитиз - море, типа модно сейчас (в большинстве своём - сферические кони в вакууме, имхо, по многим причинам)

Anode
()
Ответ на: комментарий от zort

> тот кто реализует быстрый семантический поиск будет править миром.

поищи echelon и ты узнаешь, кто правит бал в этой области, причем, уже очень давно.

добронежелатель

anonymous
()
Ответ на: комментарий от anonymous

> Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

bydlo@inet $ emerge -s "Фотки голых баб" Searching... [ Results for search key : Фотки голых баб ] [ Applications found : 0 ]

Фи отстойный поисковик

anonymous
()
Ответ на: комментарий от anonymous

> Ориентироваться будут на быдло, оно примерно однородно. Оно запрограммировано рекламой и жёлтой прессой. Кроме того, его значительно больше.

сегодня это называется "рыночная ниша"

firsttimeuser ★★★★★
() автор топика
Ответ на: комментарий от anonymous

> Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

bydloo@inet $ esearch "фотки голых баб"
[ Results for search key : фотки голых баб ]
[ Applications found : 0 ]

Фи какой отстойный поисковик!

bydloo@inet $ esearch porn
[ Results for search key : porn ]
[ Applications found : 1 ]

* media-gfx/pornview
Latest version available: 0.2.0_pre1-r1
Latest version installed: [ Not Installed ]
Size of downloaded files: 1,783 kB
Homepage: http://pornview.sourceforge.net
Description: Image viewer/manager with optional support for MPEG movies.
License: GPL-2

Ну хоть что-то...

anonymous
()
Ответ на: комментарий от anonymous

Неужели, вводя "фотки голых баб", вы втайне мечтаете увидеть голых мужиков?

anonymous
()
Ответ на: комментарий от anonymous

>Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

Это звездец какой звездец. Искать надо в релевантной информации. "Последняя" это блоги, форумы и сайты вроде лора. Называется "хрен найдешь" информацию, в основном находится только упоминание о ней. Глупость короче.

r ★★★★★
()
Ответ на: комментарий от anonymous

> У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали.

ИМХО, это зависит от того, как реализован семантический поиск. Скажем, если база фактов хранится в виде семантической сети, можно ведь задать запрос типа [найти все объекты X, такие, что существует связь "X написан Y" И Y.имя = "Бонапарт" И существует связь "Y is_a Z", где Z.имя = "император"]. Собственно, на Прологе такие вещи можно писать уже сейчас, остается дело за малым: организовать автоматический перевод текстовых документов в фактографическую базу и реализовать такой поиск по ней за приемлемое время. Всего-навсего. :-)

--

SVK

anonymous
()
Ответ на: комментарий от anonymous

s/И существует связь/И НЕ существует связь/

--

SVK

anonymous
()
Ответ на: комментарий от pv4

> 29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

Вот приколист. Пишешь в гугле glibc-2.5, идешь по первой же ссылке на maillist, а там чел пишет что 2.5 выходит 29, его справшивают а что там нового, а он отвечает что все уже написано в NEWS.

gloomdemon
()
Ответ на: комментарий от anonymous

:D Вот "организовать автоматический перевод текстовых документов в фактографическую базу и реализовать" это самое интересное, особенно если правильно будет работать.

gloomdemon
()
Ответ на: комментарий от BaBL

> а по слову стэк оно приплюсует буфер и выдаст Enlarge your penis?

нет, по этому слову оно выдаст ПСС Захер-Мазоха.

Zerg324
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.