LINUX.ORG.RU

Больше чем просто поиск...


0

0

Существующие поисковые технологии уже не в состоянии справляться со все растущим потоком неструктурированных даных. В море публично доступной информации становится все труднее найти нужный кусок...

Уже более четырех лет команда исследователей, состоящая из лингвистов и специалистов в области IT, при Middlebury College работает над проектом, призванным изменить устоявшийся подход к технологии поиска. Группа под руководством Арона Кобурна (Aaron Coburn) разрабатывает поисковый движок, который рассматривает запрос с точки зрения семантики, а не просто как набор ключевых слов. Простейший пример: результат запроса "фрукты" может включать документы, в которых упоминаются "яблоки" и "апельсины", или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Еще одна область для применения технологии, над которой трудятся авторы, это визуализация художественных произведений, буквально - построение графических связей между терминами в тексте. Таким образом создается удобный метод поиска по тексту, мгновенно дающий представление о взаимодействии персонажей произведения. С этой целью авторы рассчитывают провести индексацию как можно большего количества текстов, доступных из проекта Gutenberg.

Ядром технологии является экспериментальный поисковый движок код которого вместе с Perl-биндингами и всем необходимым для создания GUI доступен под GNU GPL. Позже в этом месяце авторы обещают выпустить пользовательское приложение для поиска на десктопе, основанное на даной технологии.

страница проекта http://www.knowledgesearch.org/

>>> Подробности

1)В движке поиска обычно включают выбор каким механизмом поиска\расширения пользоваться (нехочешь непользуйся) 2)Никто немешает комбинировать разные методы в одном запросе (что то расширять по семантике что то нет) (Единственно тут уже нужно учится языку запросов) 3)Семнтические связи строятся людьми (в идиале професионалами в той области для которой она строится)

PS: Имею опыт работы с софтом(комерческим) где есть механизм семантического\морфологического поиска

anonymous
()
Ответ на: комментарий от anonymous

>3)Семнтические связи строятся людьми (в идиале професионалами в той области для которой она строится)

Вот в этом и проблема. Для расского языка нельзя создать универсальный тезаурус. По крайней мере, успешных попыток не было.

anonymous
()
Ответ на: комментарий от anonymous

> PS: Имею опыт работы с софтом(комерческим) где есть механизм семантического\морфологического поиска

А какая связь между первым и вторым (ну, кроме того, что для семантического анализа русских текстов нужен морфологический движок)?

anonymous
()

На слово "Операционная система" в гугле:

1) На первой странице ни слова о цынде :)

2) На второй аналогично.

3) На остальных страницах чаще всего либо мусор, либо оффтопик, потому не смотрим туда... и правда, там оффтопик встречается.

p_kolya
()
Ответ на: комментарий от anonymous

> 2)Никто немешает комбинировать разные методы в одном запросе (что то расширять по семантике что то нет) (Единственно тут уже нужно учится языку запросов)

Неужели ты думаешь, что автор запроса "фотки голых бап" будет этим заморачиваться??? Он выберет тот поисковик, где баб больше, где они его сильнее возбуждают. А всё остальное для него - это "неправильный интернет". Быдло так устроено: моск оно включает только в самом крайнем случае - когда все остальные способы провалились. Вот кто лучше всех научится этому былу потакать - тот и выиграет. Семантика, пилять. Слова-то какие...

anonymous
()

Это для тех кто не умеет правильно гуглить? Фигня. Я не хочу чтобы на запрос "кде4" мне мылавало разные гуи от винды.

Проект обречён на вечное пребывание в стадии бета... Бд от него будет вечно недоработана.

Для каждого языка нужны свои алгоритмы, по крайней мере со своими костылями. И свои бд. Ещё переводчик русско-англиский нормальный (по смыслу, а не по словам) никто не реализовал, а ведь над этим куча математиков и лингвистов бъётся.

В общем ненужная игрушка, хотя местами может быть будет умный код, который пойдёт кому-то на пользу. (ГПЛ это хорошо.)

anonymous
()

Ну вот, теперь ещё и Гуглю капец =) Итак товарищи, когда наступит скорый капец винде, мы тут же примемся за гугель. Группа под руководством Арона Кобурна уже выехала =)

magesor ★☆
()
Ответ на: комментарий от anonymous

>А какая связь между первым и вторым (ну, кроме того, что для семантического анализа русских текстов нужен морфологический движок)?

и в том и другом случае нужно составлять базу связей между словами

ты правельно заметил что движок один, вот только называть его "морфологическим" имхо неправельно. посути идёт расширение по базе связей.

anonymous
()
Ответ на: комментарий от anonymous

>Вот в этом и проблема. Для расского языка нельзя создать универсальный тезаурус. По крайней мере, успешных попыток не было.

а где я писал про универсальный?

уточнюсь: для одной облости один для другой другой (кесереву кесерево) Универсального ИМХО небудет никогда. Максимум общий-среднестатистический по энному количеству людей. Но согласитесь есть таки базовая часть в нынешнем русском которая для 99% населения будет одной, хотя она будет неочень большой.

kuta
()
Ответ на: комментарий от anonymous

> Правильно. Вспомнил, что полгода назад статью интересную читал, даже ключевые слова помнишь и фамилию автора, а не найдёшь - хрен тебе. Ибо. Нех старьё читать. Лучше на-ка, почитай, что Сопчаг вчера отмочила.

Ты не вкурил. Надо было больше дыметь.

pubsub был(?) не конкурентом гуглу. Это другая ниша в поиске, новая. Если хочешь искать в прошлом -- иди в гугл, а если хочешь получать интересующую тебя инфу сразу же как только она появляется в инете иди в пабсаб. Вот это, понимаю, революционно, а не этот сабж.

anonymous
()
Ответ на: комментарий от r

> Искать надо в релевантной информации. "Последняя" это блоги, форумы и сайты вроде лора.

Вот ты вкурил в принцип. Именно так. Миллионы блогов, форумов, новостных сайтов и возможно еще mail-рассылок. Все что там появляется и попадает под твой фильтр идет к тебе.

Если ты не понимаешь как этим можно воспользоваться, то ССЗБ.

Простой пример, тебе нужно не пропустить момент, когда начнут делать поддержку jingle в миранде. У тебя получается три решения:

1) Подписаться на n-ое количество девелоперских RSS, читать их в поиске нужной инфы. В общем читать каждый день и много.

2) Делать каждый день google miranda+jingle и смотреть что нового (по моим наблюдениям, между появлением инфы в инете и в гугле разница примерно от трех дней до недели).

3) Сделать на пабсабе фильтр miranda+jingle и читать только то что идет.

Понятно, что пабсаб -- самый оптимальный способ по количеству информации к чтению и разнице между появлением информации и её обнаружением.

А ты глупостью назвал. Эх.

anonymous
()
Ответ на: комментарий от anonymous

>Если ты не понимаешь как этим можно воспользоваться, то ССЗБ.

Ты мне будешь рассказывать. У меня диплом 6ть лет назад по коллаборативным фильтрам.

>Понятно, что пабсаб -- самый оптимальный способ по количеству информации к чтению и разнице между появлением информации и её обнаружением.

Если так - тогда более менее. Я просто не так понял. Если там еще есть хоть какая-то система рейтингов - вообще хорошо. Только это не революционно - это давно известно:) Только в яндексах умных книжек не читают....

r ★★★★★
()

я понел.
этот поисковик по слову "Х*Й" будет находить "ПАШОЛ В ПИ*ДУ"
а че, смешно...

ppy ★★
()
Ответ на: комментарий от anonymous

> Млять. У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали.

А мне гугль на "Бонапарт Львович" вообще ничего не вернул. Так что твоему шефу надо пиарицца получше.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.