LINUX.ORG.RU

Wikia идет к Open Source поиску


0

0

Создатель Wikipedia, Джимми Уэйлс(Jimmy Wales) энергично продвигает Wikia, коммерческую коллекцию Web-сайтов, редактировать которые может каждый. Ключевым компонентом является поиск. Wikia анонсировала приобретение проекта распределенного поиска Grub от LookSmart и выложила технологию под лицензией GPLv2. Финансовая сторона дела не разглашается.

Так же, как Wikipedia и Wikia открыла процесс распространения контента массам, Wikia Search, возможно, откроет поиск. Уэйлс нанял основателя Jabber Джереми Миллера(Jeremy Miller) для управления проекта поиска Wikia, начатого в декабре. Одной из первых вещей, сделанных ими, по словам Уэйлса, это нахождение необходимых технологий.

"В Grub интересно то, что это распределенный crawler," объясняет Уэйлс. "Люди скачивают клиент и он выполняет индексацию под управлением центрального сервера. Это очень эффективно, они [Looksmart] использовали его в production несколько лет".

Не смотря на то, что у Wikia есть Grub, отметил Уэйлс, это не препятствует использованию других средств, таких как Nutch, Open Source технологии, построенной на базе Apache Lucene.

Клиент Grub доступен для скачивания и тестирования. Тем не менее, по словам Уэйлса, еще рано говорить о том, как это будет работать. Он будет доволен, если большое количество людей будет использовать клиент и к концу года количество crawler'ов будет значительным. Основной целью Уэйлса и Wikia Search является создание поиска, сравнимого с такими гигантами как Google или Jahoo. При этом Grub лишь один из элементов структуры.

>>> Подробности

anonymous

Проверено: Shaman007 ()

Господи, баян из баянов + глухой телефон.

Ничего там реально не делается, а если там и будет что-то достойное внимания, то ох как не скоро.

И вообще тогда уж ссылку надо не на internetnews давать, а сюда: http://www.wikia.com/wiki/Search_Wikia_OSCON

Не подтверждайте, это не новость.

Sikon ★★★
()

>"В Grub интересно то, что это распределенный crawler,"

Много думал. Видеопроигрыватель в установщике еще понимаю, то "паук" в загрузчике - имхо перебор :)

anonymous
()
Ответ на: комментарий от anonymous

Шаман, в ебаунском русский язык не учил? Энергично, а не "енергично".

krum
()

какова языка говорют автор новости и шома?

явно не на русском и не на английском.

MaratIK
()

праально писадь: "являеться поискъ"

anonymous
()

Бред какой-то. Встречаю упоминание граба, думаю про граб 2.0 новость, а тут какой-то непонятный бред про википедию :-/

И вообще, замахиваться на святое - гугл? Патрик их покарает!

anonymous
()

Бесполезная идея - глобальный WWW поиск требует колоссальных вложений в железо и инфраструктуру.

Было бы интересно, если бы они создали хорошую альтернативу Google local search engine, который стоит немалые деньги.

birdie ★★★★★
()
Ответ на: комментарий от birdie

Но ведь пользователей тоже много... Если запустят 1000 000 пауков, то может что и получиться

anonymous
()

Нифига не понял.. =( пауки какие-то, викя, гугль..

Может кто-то по-простому объяснить как этом поиск будет работать? Я так понял часть работы будет делать сам клиент. Растолкуйте кто понял, пожалуйста.

anonymous
()
Ответ на: комментарий от anonymous

Для тех, кто по ссылкам не ходит. Википедия:
"Поиско́вый ро́бот («веб-пау́к», паук, спайдер, краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах."

anonymous
()
Ответ на: комментарий от anonymous

Нам нужно больше дятлов! Без них интернет загнётся :)

eveel ★★
()
Ответ на: комментарий от anonymous

>Тиггер русской языки не знает? Если читать не умеешь, это не лечиться...

Лечится в данном контексте пишется без мягкого знака. Учи русский язык.

Tigger ★★★★★
()

А я надысь нахер закрыл доступ всем роботам, кроме гугля и яндекса на всех сайтах, которые держу. Ибо задрали, траф жрут, а пользы ноль от всех этих гого, вебальт да других яхуй.

anonymous
()
Ответ на: комментарий от anonymous

>anonymous (*) (04.08.2007 0:34:23)

Вот чудик, ты еще теги потри и на порт нестандартный повесь чтобы уж совсем никто не нашел. :D

anonymous
()
Ответ на: комментарий от anonymous

> на всех сайтах, которые держу

Боюсь подумать, за какой орган ты их держишь.

anonymous
()

>Apache Lucene.

Не читал, но подтверждаю! --Shaman007

anonymousI
()

Jahoo - эта пять! :D Растаманский поисковик?

k0l0b0k ★★
()
Ответ на: комментарий от GoR

> гуглъ намного удобнее, чем эта http://www.wikia.com да и поиск там какой-то странный...

Дыкть, сколько лет Гуглю, и сколько лет Викиа? А ведь когда-то и оффтопик был намного удобнее Linux.

ИМХО, сила Викиа в том, что это FOSS, просто пока что он на старте, а в этой фазе все FOSS-проекты являются "гадкими утятами".

eugine_kosenko ★★★
()
Ответ на: комментарий от anonymous

>Jahoo, дайте две! =) emt (*) (03.08.2007 17:30:56)

по 330 каждому (с)

hobbit19 ★★★
()
Ответ на: комментарий от eugine_kosenko

блин, новость лень читать, по ссылке идти тоже лень, тред тоже читать не хочу, скажите новость хорошая? :)

defmacro
()

Может им вместо граба остаться на lilo?

anonymous
()

Заведу порнушный сайт, а спайдеру подсуну "linux, GNU, креведко" :)

Puzan ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.