LINUX.ORG.RU

Статья о поисковике search.wikia.com

 ,


0

0

В статье рассказывается о поисковике, созданном автором Википедии Джимми Вэйлсом (Jimmi Wales) и перезапущенном в июне. Основные идеи:

  • Причина создания — идеологические разногласия с Гуглом, который не раскрывает свой поисковый алгоритм. Wikia search engine построен полностью на открытом ПО.
  • Wikia поощряет наполнение базы поисковика пользователями. Тогда как большинство поисковиков целиком полагаются на поисковый алгоритм.
  • Помимо пользовательского ввода Wikia также использует поисковик Nutch.
  • Для индексирования и работы с базой данных используется библиотека Lucene Java.
  • В качестве «паука» — сканирующей WWW программы — используется Grub. Wikia не может тягаться с Гуглом числом серверов, поэтому Вэйлс предлагает всем желающим скачать клиент Grub и поучаствовать в наполнении базы по примеру проектов распределённых вычислений (например SETI@Home).
  • Презагруженная AJAX-ом страница результатов поиска. Результаты подгружаются на лету, имеется система рейтингов, пользователи могут редактировать, рецензировать, комментировать, выделять и удалять результаты.
  • Желающие могут установить тулбар для Firefox.
  • Проект коммерческий, ориентирован на получение прибыли. Пока источник средств — реклама от Google (sic).

«На сегодня счётчик показывает около 8 миллионов запросов и более двух миллионов пользовательских сообщений. Не много, но как выглядела в первый день Википедия?»

>>> Подробности на сайте freesoftwaremagazine.com

Ответ на: комментарий от anonymous

> Вот в этом вся суть дотнетчегов - спижжена не только идея, но и название!

Ну откуда берётся такое невежество?

Разжёвываю до мелочей, внимайте:

Grub (web crowler) начинал разрабатываться в 2000 году. Grub (bootloader) появился примерно в это же время (+/- год или около того), а более менее стал использоваться ещё позже, где-то с 2002-2003. Так что по поводу первенства названия вопрос очень спорный. Причем данный вопрос волнует только лоровских аналитиков, авторам обоих проектов почему-то нет дела до таких мелочей.

Более того, современная C# версия Grub полностью называется Grub Next Generation и в именах файлов используется название grubng.

> И как обычно, всё глючид безбожно!

И снова ты газифицировал лужу... Удивительно, но никаких глюков в работе Grub я не заметил, всё работает весьма стабильно, память возвращает, весь заявленный функционал работает.

Ах да, для настоящих Ъ есть версия краулера на чистом C - очень маленькая.

SKYRiDER ★★★
()

Ужас. Страницы почти по мегабайту, куча контекстной рекламы и джаваскипт.

Dimanc ★★
()
Ответ на: комментарий от fpga

> Отлично, пошел создавать дистрибутив GNU/Linux под названием Ms WiNdOwS Xp - не подкопаешься, все чисто.

См. выше, оно не должно пересекаться с давно существующим MS Windows XP. Но даже так, ничто не мешает создать дистрибутив "Miss Wiccan Neodymium Owl Saboteur eXtreme programming" и неофициально сокращать его до Ms Windows XP :)

question4 ★★★★★
() автор топика

Только сейчас заметил: anonymous_incognito исправил «Прегруженная AJAX-ом» на «ПреЗАгруженная AJAX-ом». Нет, я именно имел в виду, что на странице чересчур много генерируемого скриптом и подгружаемого на ходу, что отрицательно сказывается на удобстве.

question4 ★★★★★
() автор топика

>Privacy
> A searcher's privacy must be protected and respected, on both a technological and social level.


> 195.230.87.105 добавил www.linux.org.ru 6 часы назад


Чего то я в этом мире не понимаю...

Legioner ★★★★★
()
Ответ на: комментарий от Legioner

>> A searcher's privacy must be protected and respected, on both a technological and social level.

>> 195.230.87.105 добавил www.linux.org.ru 6 часы назад

> Чего то я в этом мире не понимаю...

Приватными являются результаты поиска, а не вносимые в систему изменения. Т.е. нигде не разглашается что именно ты искал, но записываются и публично доступны все правки результатов поиска (добавление, удаление, редактирование результатов, создание аннотаций, "подсветка" статей).

SKYRiDER ★★★
()

В Konqueror 4 работает замечательно, надо выработать привычку пользоваться этим поисковиком :)

GFORGX ★★★
()

En Wiki Grub: ...releasing several new versions of the software, albeit under a closed license.

wiki - это что-то вроде гугла, т.е. вы за открытые исходники, но свои исходники скрывают?

anonymous
()

Странный поисковик. Ищет, вроде, неплохо, но для нормальной работы требует разрешить жабоскрипт для кучи сайтов. Как-то нафиг оно надо, пусть лучше гугль мои запросы в свою цеэрушную копилку складывает. Зато только гугль.

fractaler ★★★★★
()

Ужаснах.

Требует включённого javascript для работы, причём без yahooapis.com вообще не работает (подозрительно).

При прокрутке постоянно дёргает страницу для добавления результатов, от чего у меня начинается нервный тик. При этом ещё и умудряется тормозить.

Такой хоккей^W опенсурс нам не нужен!

anonymous
()
Ответ на: комментарий от anonymous

И ещё - страница с результатами занимает почему-то ровно половину экрана, вторая половина остаётся абсолютно пустой. сЗакапывайте.

anonymous
()
Ответ на: комментарий от anonymous

> И ещё - страница с результатами занимает почему-то ровно половину экрана, вторая половина остаётся абсолютно пустой.

Там еще рекламу от гугла не успели разместить :)

anonymous
()
Ответ на: комментарий от anonymous

> И как обычно, всё глючид безбожно!

Это руки.

sv75 ★★★★★
()
Ответ на: комментарий от anonymous

> сраный дот-нет

Вот откуда берутся такие дураки, даже интересно?

sv75 ★★★★★
()

>Проект коммерческий, ориентирован на получение прибыли.

>в, поэтому Вэйлс предлагает всем желающим скачать клиент Grub и поучаствовать в наполнении базы


Ахренел.

r ★★★★★
()
Ответ на: комментарий от VladimirP

>Вы нам помогайте, а мы на вас денег заработаем (и гуглу тоже поможем заработать), и вам тоже польза будет.

Не хочешь помочь набить телефонную книгу?

Одно дело коллаборативный сайт держать, но чтобы и индексы обновлять за счет пользовательских вычислительных ресурсов - это воообще наглость.

r ★★★★★
()
Ответ на: комментарий от TOHbl4

>Участникам программы распределённой индексации и хранения, набравшим определённое количество "баллов" рекламу не показывать.

Еще один изобретатель ахренизма. В переводе на человеческий - вы хотите чтобы вас не за%бывали? 10$. Хочешь я тебе на таких условиях буду непосылать спам? Рекет какой-то.



r ★★★★★
()
Ответ на: комментарий от cap838383

>sich seech seerch

Не очепяток а ошибок от незнания как это слово пишется.

r ★★★★★
()
Ответ на: комментарий от AVL2

>а оное разве не на яве? lucene вроде как на яве, а это их проект.

ТАм скорее всего на яве но есть порты на С и .NET.

r ★★★★★
()
Ответ на: комментарий от r

> поэтому Вэйлс предлагает всем желающим скачать клиент Grub и поучаствовать в наполнении базы

> Ахренел.

А в чём, собсно проблема? У меня, к примеру, душа болит за малоиспользумый безлимитный интернет -- а тут как раз применение.

sv75 ★★★★★
()
Ответ на: комментарий от sv75

>А в чём, собсно проблема? У меня, к примеру, душа болит за малоиспользумый безлимитный интернет -- а тут как раз применение.

А гуглу не хочешь ченить поидексировать? Или яндексу?

r ★★★★★
()
Ответ на: комментарий от anonymous

> En Wiki Grub: ...releasing several new versions of the software, albeit under a closed license.

> wiki - это что-то вроде гугла, т.е. вы за открытые исходники, но свои исходники скрывают?

Это где вы такое нашли? Можно пруфлинк?

У них на сайте вообще-то написано что Grub# client - "Free Software program is available under GNU GPL v3 license" (c) http://dev.grub.org/?q=en/node/54

SKYRiDER ★★★
()
Ответ на: комментарий от AVL2

> а оное разве не на яве? lucene вроде как на яве, а это их проект.

На java написан сам движок, т.е. часть которая крутится у них на серверах.

А сам краулер (Grub C# client), который предлагается запускать пользователю естественно никакой программы не содержит. Чистый Mono/GTK#. Альтернативный консольный сишный клиент (всего 30 кБ кода) не имеет вообще никаких зависимостей, кроме опциональной линковки с zlib.

SKYRiDER ★★★
()
Ответ на: комментарий от fractaler

> Странный поисковик. Ищет, вроде, неплохо, но для нормальной работы требует разрешить жабоскрипт для кучи сайтов. Как-то нафиг оно надо, пусть лучше гугль мои запросы в свою цеэрушную копилку складывает. Зато только гугль.

Ну так все исходники открыты (включая поисковый интерфейс) - http://re.search.wikia.com/about/get_involved.html - вот и предложи свою помощь по улучшению.

SKYRiDER ★★★
()
Ответ на: комментарий от r

> А гуглу не хочешь ченить поидексировать? Или яндексу?

Как только я смогу читать, модифицировать и распространять исходный код движка гугла - запросто.

Legioner ★★★★★
()
Ответ на: комментарий от sv75

>А в чём, собсно проблема?

Автор зарабатывает на ресурсе, он должен его и поддерживать. А если хочет, чтобы пользователи его развивали - пускай уберет рекламу. Ну, или хотя бы уменьшит ее количество до разумного и не будет пользователей _заставлять_ ее загружать.

Dimanc ★★
()
Ответ на: комментарий от SKYRiDER

>Вэйлс предлагает всем желающим скачать клиент Grub и поучаствовать в наполнении базы по примеру проектов распределённых вычислений (например SETI@Home).

>Проект коммерческий, ориентирован на получение прибыли.

Где я смогу получить свою долю прибыли за запуск и работу клиента?

anonymous
()
Ответ на: комментарий от r

> А гуглу не хочешь ченить поидексировать? Или яндексу?

Если от меня не требуется практически никаких усилий/затрат на это и если бы это значительно улучшило результаты поиска этих систем, то почему бы и нет?

Вот только "идеологическая" составляющая у этих поисковиков мягко говоря хромает, в отличие от викии.

Ах да, а где можно скачать полные индексы гугловских/яндексовских баз? Нигде? А для викии можно - http://re.search.wikia.com/about/get_involved.html

SKYRiDER ★★★
()

> Wikia поощряет наполнение базы поисковика пользователями. Тогда как большинство поисковиков целиком полагаются на поисковый алгоритм.

а вот я один такой анабиозный, что только сейчас заметил кнопки "плюсануть" и т. п. в поисковых результатах гугогла ?

Syncro ★★★★★
()
Ответ на: комментарий от SKYRiDER

>Вот только "идеологическая" составляющая у этих поисковиков мягко говоря хромает, в отличие от викии. >Ах да, а где можно скачать полные индексы гугловских/яндексовских баз? Нигде? А для викии можно - http://re.search.wikia.com/about/get_involved.html

Можно скачать у викии базы. И что вы с ними будете делать? Гугл мне нравится куда больше. А викия идеологически мне не нравится- слишком толстые страницы, джаваскрипт, много рекламы.

Dimanc ★★
()
Ответ на: комментарий от Dimanc

> Можно скачать у викии базы. И что вы с ними будете делать?

Захочу - открою свой поисковик на базе уже готовых образов и буду дальше развивать его по своему, весь необходимый софт для этого доступен. Не захочу - не открою. Захочу - буду как угодно "играться" с огромной имеющейся БД, просто для того чтобы проверить работу каких-то своих идей, алгоритмов, экспериментировать с различными статистическими методами и т.п. Это всё и называется свобода.

> Гугл мне нравится куда больше. А викия идеологически мне не нравится- слишком толстые страницы, джаваскрипт, много рекламы.

Ну и на здоровье, продолжайте юзать гугл, я тоже продолжу его юзать, но уже не всегда.

Я лишь призываю объективно оценить достоинства и недостатки данного проекта и каждому самостоятельно принять взвешенное решение стоит ли его поддерживать или нет, а не идти на поводу у крикунов что "у нас есть гугл и больше ничего не нужно". Практически никто из прочитавших эту новость не соизволил почитать даже несколько страниц о викии, но почему-то тут же решил что оно не нужно, не может работать и т.п. Я писал в эту тему лишь для того, чтобы устроить небольшой ликбез на тему викии, т.к. Ъ по ссылкам не ходят, а комментарии, хоть и по диагонали, но читают.

SKYRiDER ★★★
()

Не просекли вы тему: конкуренция усилится и гугл станет лучше.

GreLI
()

Раздают базы под открытой лицензией - труъ. Распределённое индексирование и редактирование результатов - труъ.

Только не понял, какая им выгода с того, что юзеры гоняют индексатор на своих машинах, если он всё равно тупо закачивает на сервак полные тексты всех страниц, никак их не обрабатывая, разве что гзипом жмёт.

ero-sennin ★★
()

Зато теперь при запросе Linux появляется взвод пингвинов и ссылка на ЛОР на видном месте.

hobbit ★★★★★
()
Ответ на: комментарий от Syncro

> а вот я один такой анабиозный, что только сейчас заметил кнопки "плюсануть" и т. п. в поисковых результатах гугогла ?

Я их вообще не видел ни разу. Сейчас попробовал воспользоваться поиском, залогинившись на gmail, и увидел впервые. Имхо, эти "удалённые" просто перестают быть видны только тому пользователю, который их удалил.

question4 ★★★★★
() автор топика
Ответ на: комментарий от Dimanc

> уменьшит ее количество до разумного и не будет пользователей _заставлять_ ее загружать.

Сейчас реклама показывается 1 раз за сеанс. Но много.

question4 ★★★★★
() автор топика
Ответ на: комментарий от SKYRiDER

>Захочу - открою свой поисковик на базе уже готовых образов и буду дальше развивать его по своему, весь необходимый софт для этого доступен. Не захочу - не открою. Захочу - буду как угодно "играться" с огромной имеющейся БД, просто для того чтобы проверить работу каких-то своих идей, алгоритмов, экспериментировать с различными статистическими методами и т.п. Это всё и называется свобода.

Поисковик требует в первую очередь много дорогостоющего железа. База данных и софт - вторично. А если у вас нет оборудования, вам остается только "играться" с этой БД. :)

>Я лишь призываю объективно оценить достоинства и недостатки данного проекта и каждому самостоятельно принять взвешенное решение стоит ли его поддерживать или нет, а не идти на поводу у крикунов что "у нас есть гугл и больше ничего не нужно".

Объективные достоинства и недостатки гугля с викией всем очевидны.

>Практически никто из прочитавших эту новость не соизволил почитать даже несколько страниц о викии, но почему-то тут же решил что оно не нужно, не может работать и т.п.

Эмм... писали, в основном, о тормознутости, рекламе и нужности присоединения к проэкту в качестве бота.

Dimanc ★★
()

Согласен с высказанными мнениями. Есть гугл, Яндекс, етс.

Сабж тормозит и ищет хуже гугла.

FENix
()
Ответ на: комментарий от r

> А гуглу не хочешь ченить поидексировать? Или яндексу?

Нет, что-то не хочется.

А потчему ви спрашиваете?

sv75 ★★★★★
()
Ответ на: комментарий от ero-sennin

> Только не понял, какая им выгода с того, что юзеры гоняют индексатор на своих машинах, если он всё равно тупо закачивает на сервак полные тексты всех страниц, никак их не обрабатывая, разве что гзипом жмёт.

Во-первых, три раза экономия в трафике и нет проблем с медленными тормозящими сайтами, во-вторых эта дура ещё и неплохо жрёт проц, таким образом экономия на куче стоек с краулерами налицо.

sv75 ★★★★★
()
Ответ на: комментарий от SKYRiDER

> Альтернативный консольный сишный клиент (всего 30 кБ кода) не имеет вообще никаких зависимостей, кроме опциональной линковки с zlib.

А где его релиз? Или он ещё альфа? Клиент на C# конечно можно запустить демоном, но что-то меня удивляет, сколько проца он кушает.

sv75 ★★★★★
()
Ответ на: комментарий от FENix

> Сабж тормозит и ищет хуже гугла.

зато при поиске слова linux на заднем фоне пингвины появляются :) И не тормозит он . А про JavaScript - без него половина сайтов не работает.

cap838383
()
Ответ на: комментарий от anonymous

> блокировать нежелательные картинки мама не научила?

на тулбаре не заблокируешь ..

cap838383
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.