LINUX.ORG.RU
ФорумTalks

Теги vs Поиск. Есть ли польза от тегов?

 ,


1

1

На многих сайтах, вроде лора и пикабу, наравне с поиском делают теги. Мне интересна причина - это потому что поиск нормальный не осилили? Или не осилили подписку на поисковые запросы?

Тегами можно донести рубленые мысли в стиле Маяковского, но это спорное достоинство. Кто что думает? Когда теги лучше самого расхорошего поиска а когда нет?

★★★★★

можно кастовать в свои темы/вопросы спецов/любителей/любопытных/сочувствующих, без знания их поименно.

Deleted ()

теги не нужны

Будучи подписанным на этот единственный тэг я зашел и отписал свою крайне важную мысль. А иначе бы как обычно проигнорировал очередной глупый тред за авторством тебя. Вот такая польза.

entefeed ☆☆☆ ()

Обязательность тэгов на ЛОРе совершенно не нужна.

stevejobs ★★★★☆ ()

никогда не использовал поиск по тегам, но это я.

теги завязаны на человеческом факторе, ведь не всегда автор поста может корректно их указать, и при поиске многая полезная информация может быть пропущена.

лучше уж пользоваться поиском по ключевым словам по всему сообщению целиком. если сообщение содержит искомое слово, значит на него следует обратить внимание и отсеить уже самому, чем за тебя это сделает фильтр.

я в своём ЖЖ теги не делал и не собираюсь.

Spoofing ★★★★★ ()

Теги нужны для фильтрации контента, на 90%.

tyakos ★★★ ()

Теги можно заигнорировать, но не поисковые запросы.

Deleted ()
Ответ на: комментарий от tyakos

Это слишком общее заявление. Поясни свою мысль. Что особенного делают теги, чего нельзя (или дорого) делать другими способами.

Vit ★★★★★ ()
Ответ на: комментарий от Deleted

Согласен, но это вспомогательная фича, IMHO. Хотя если таких наберется десяток...

Vit ★★★★★ ()

Теги vs Поиск

Вопрос поставлен неправильно. Все хорошо в определенном случае.

Когда теги лучше самого расхорошего поиска а когда нет?

Тэги это просто и удобно с точки зрения пользователя, но они ограничивают, если нужно найти что-то редкое и специфическое. И

Sociopsih ★☆ ()
Ответ на: комментарий от Spoofing

многая полезная информация

Шта?! Русиш фантастиш! Или нет, но мой стилевой радар что-то задетектировал.

я в своём ЖЖ теги не делал и не собираюсь.

Душещипательно, 1,5 читятеля твоего ЖЖ в диком шоке.

Sociopsih ★☆ ()
Последнее исправление: Sociopsih (всего исправлений: 2)

Теги vs Поиск

Теги + Поиск. Бывает удобно ограничивать выдачу поискового запроса только документами, которые имеют интересующие тебя теги (там, где это поддерживается).

theNamelessOne ★★★★★ ()
Ответ на: комментарий от theNamelessOne

Бывает удобно ограничивать выдачу поискового запроса только документами, которые имеют интересующие тебя теги

Тут два вопроса:

1. Как часто такое случается? Вопрос в КПД. Теги ведь тоже не совсем бесплатные.

2. Может это случается потому что там поиск хреновый?

Я не отрицаю, что от тегов может быть польза. Просто пытаюсь понять, это действительно фича, или привычка (вроде того что надо при регистрации 2 раза ввести email и пароль)

Vit ★★★★★ ()
Ответ на: комментарий от Vit

Тут два вопроса:

Мне кажется, что ответ на эти вопросы будет сильно зависеть от того, какие именно данные у тебя индексируются. Например, КПД поиска фильмов по запросу и тегам будет гораздо выше, чем КПД поиска форумных тем/сообщений по запросу и тегам.

В любом случае, у меня статистики нет, и каких-либо исследований я не проводил, так что это только предположение.

theNamelessOne ★★★★★ ()
Последнее исправление: theNamelessOne (всего исправлений: 1)
Ответ на: комментарий от theNamelessOne

Я в основном с форумами/бложиками имел дело. С фильмами вопрос интересный. Под тегами понимаются в основном жанры/автор или реально надо до фига других в поиске? Просто если тегов относительно небольшое число - можно провести аналогию с разделами форума.

Технически, разница между тегами и разделами в том, что разделы жестко забивает админ, а теги лепят юзеры. Могут быть еще по базе нюансы, если она не умеет массивы индексировать, но это на суть не влияет.

Vit ★★★★★ ()

А ты попробуй, сравни

www.linux.org.ru/tag/btrfs

и поиск по btrfs

А если в теме тег не проставлен, то тема, скорее всего, мусорная.

Иногда модераторы/корректоры задним числом теги ставят/правят.

greenman ★★★★★ ()
Последнее исправление: greenman (всего исправлений: 1)
Ответ на: комментарий от greenman

Не могу полностью согласиться с таким примером. Если в поиске выбрать «только по темам, сортировка по дате», то будет относительно осмысленно.

Это вообще очень филосовский вопрос, как настраивать поиск.

Vit ★★★★★ ()
Ответ на: комментарий от Vit

Под тегами понимаются в основном жанры/автор или реально надо до фига других в поиске?

Ну да, в таком случае, если тегов мало, в них смысла особого не будет.

theNamelessOne ★★★★★ ()

Когда теги лучше самого расхорошего поиска а когда нет?

когда скроллишь этот самый сайт, просматривая название темы и теги. теги больше бросаются в глаза.

f1u77y ★★★ ()
Ответ на: комментарий от f1u77y

или, допустим, есть тег “apple”, на который некто подписан. тогда ему будет приходить любая apple-релейтед тема в уведомления а в поиске не будет много результатов(вряд ли во всех темах по макбукам есть хоть раз слово “apple”), и иногда будет попадаться трэш

f1u77y ★★★ ()
Ответ на: комментарий от f1u77y

Никто не отменял учет персональных интересов юзера, чтобы не показывать то что он считает трешем. Треш в тегах тоже вполне реален - я могу наклепать тем с левыми тегами. Тебе не кажется, что ты сравниваешь «хреновый поиск» и «хорошие теги»?

Мне не то чтобы не нравятся теги. Смущает их какая-то захардкоженность на участие человека. То есть вместо того, чтобы просто найти интересное, юзеры должны проделать специальные действия аж на двух концах (проставить тег / найти тег). Мне подобная система не кажется устойчивой, и я не понимаю как ее гарантированно приводить в устойчивое состояние без модераторов.

Vit ★★★★★ ()
Ответ на: комментарий от Vit

Треш в тегах тоже вполне реален - я могу наклепать тем с левыми тегами

я про треш, который возникает даже при условии, что все модераторы все проверили и исправили. кто-то вскользь упомянет apple в своей теме, кто-то вообще скажет это слово не в значении названия компании(актуально в основном для англоязыных форумов). все это не будет протегано apple, но поиск выдаст это по запросу apple. или какой “хороший” поиск ты предлагаешь сделать, чтобы он так умно фильтровал результаты?

проставить тег

это не так тяжело. кстати, если есть некий список тегов, то почти нет возможности сделать опечатку в теге, в отличие от упоминания слова в теме

как ее гарантированно приводить в устойчивое состояние без модераторов

а как приводить в устойивое состояние без модераторов безтеговую систему? имиджборды – хороший пример оной(да, там есть модерация, но она минимальна по сравнению с форумами с регистрацией, что ведет к полной неискабельности тем/ответов по запросу(нет, я не предлааю вводить там теги и знаю, что это юзлесс)).

f1u77y ★★★ ()

Теги это превосходный инструмент фильтрации.

Deleted ()
Ответ на: комментарий от f1u77y

кто-то вскользь упомянет apple в своей теме, кто-то вообще скажет это слово не в значении названия компании(актуально в основном для англоязыных форумов). все это не будет протегано apple, но поиск выдаст это по запросу apple.

Тут есть 2 момента:

1. а с чего ты взял, что такой результат поиска будет для всех мусором? На поиске стандартный способ закрутить гайки - увеличить вес тем, искать только в первом посте, увеличить минимальный порог релевантности, потом сортировать по дате.

2. В случае с тегами есть вагон спорных случаев, где автор считает что тег нужен, а подписчик - что тег не релевантен. Ну и слишком общие теги (apple) дадут слишком много шума, что по факту сделает их не особо полезными.

или какой “хороший” поиск ты предлагаешь сделать, чтобы он так умно фильтровал результаты?

Я не знаю, как технически накладывают такие фильтры на результат, но в поисковиках поведенческий таргетинг вроде работает.

Например можно построить профиль юзера по лайкам, наиболее посещаемым темам и т.п. Кластеризация данных и все такое.

Vit ★★★★★ ()

Теги — это такая замена рубрикатора. Причём, рубрикатор этот может редактировать сам пользователь. Кстати, именно поэтому на некоторых сайтах обычному пользователю запрещается вводить новые теги.

Wizard_ ★★★★★ ()
Ответ на: комментарий от Wizard_

Ну в контексте этой темы речь о не лимитированном рубрикаторе, естессно. Лимитированный - это продвинутый аналог форумных категорий, разница есть, но не очень принципиальна.

Vit ★★★★★ ()
Последнее исправление: Vit (всего исправлений: 1)
Ответ на: комментарий от Vit

Мне не то чтобы не нравятся теги. Смущает их какая-то захардкоженность на участие человека.

Метки были созданы для преодоления недостатков дерева разделов. Которые, кстати, тоже завязаны на человека. Но в силу наших особенностей, получилось то что имеем. Где террор и дисциплина, там метки приносят некоторую пользу, например категории на википедии.

По нормальному метки будут функционировать тогда, когда автомат начнёт работать с семантикой текста. Правда тогда и метки станут не нужны, как и разделы и многое другое.

sin_a ★★★★★ ()
Последнее исправление: sin_a (всего исправлений: 1)

рубрики для навигации, теги - закладки для систематизации плюс скорость за счет индексов, поиск - поиск и есть

shimshimshim ()

Подписка на теги — это удобно, да.

Valeg ★★★ ()

Полнотекстовый поиск — это вообще сложно.

0. Нельзя сделать так:

увеличить вес тем, ..., потом сортировать по дате

Т.е. можно конечно, но ничего хорошего не получится. Лучше повлиять на скоринг найденных документов с помощью даты, что будет несколько лучше. Т.к. налету вычислять скриптом динамический множитель из даты для каждого документа из миллионного корпуса, и потом это всё сортировать — это знатное тормозилово и не всегда возможно, то проще пересобирать все полнотекстовые индексы hadoop'ом каждый день, выставляя пересчитанные числа-множители в индексируемые почищенные документы. Одно это уже вызывает разрыв шаблона у многих людей.

1. Теги для больших порталов позволяют уйти от тупиковых решений по рубрикации/категоризации контента, которые по сути являются неким вариантом системы тегов. Категории начинают вкладываться друг в друга на 10 уровней, переполняться, дублироваться между собой и т.д. Далее идут рекурсивные SQL-запросы по дереву категории и прочие велосипеды.

2. Если взять, например, яндекс и его методики продажи мест на первой странице поисковой выдачи, бегло проанализировать алгоритм, то получится некий продвинутый поиск по тегам. Когда-то у них даже был слоган «купи слова», название как бы намекает. Примерно такой и должен быть поиск: платное, ровно одно поле, но ищет по тегам и документам с учётом тегов и по-всякому.

3. Для нормальной, удобной и незаметной для юзера реализации системы тегов нужно иметь на руках что-то хотя бы уровня elasticsearch/solr с сопутствующими наработками схемы индексов, специфичными для своего проекта. А это очень сложно для обычного васи с впc'кой 2гб ram.

4. Когда очень много текста, на одном tf-idf далеко не уедешь, всё будет тормозить, жрать RAM, плохо искать by-design. Будут попытки это улучшить костылями, подкрутить релевантность, вычистить лишние тексты из индекса и дедублицировать куски документов, т.к. придёт понимание, что инвертированный индекс — это по сути система тегов для проиндексированных документов. На выходе захочется сделать извлечение ключевых слов из индексируемых документов + синонимы.

5. Для живого реал-таймового поиска захочется сделать ngram-prefix-индекс, который будет очень жирный и неудобный на базе обычных документов, но будет быстрый и хороший для тегов и ключевых слов.

6. Все мнят себя гуглами, но когда доходит до реализации, то оказывается что в мускуле/постгресе нет нормального полнотекстового поиска и не будет. Но даже те скромные возможности, которые предоставляют пгсёрч2/спхинктер/etc, сложноваты для среднестатистического васи. А для внедрения и поддержки сурьезных поисковых решений на сайте придётся держать отдельных людей, даже целый отдел из них. Поэтому, вася предлагает начальству просто внедрить теги, ведь другие сайты так же делают, авось и у нас будет хорошо...

shahid ★★★★★ ()

ИМХО, польза есть в экономии процессорного времени, полнотекстовый поиск всяко больше жрёт, чем выборка по тегам

Harald ★★★★★ ()

Зачем нужна дискретная математика, если есть математический анализ во всей полноте действительных чисел?

pacify ★★★★★ ()
Ответ на: комментарий от shahid

IMHO вопрос был не о том почему добавляют теги косорукие нищеброды. Исходи из того, что при необходимости можно поставить любой опенсорсный софт, тогда больше половины пунктов станут не актуальными. У сфинксса кстати есть апи чтобы плагинить кастомные ранкеры. И если надо делать какое-то логарифмическое затухание по дате, это тоже делается. относительно просто.

Vit ★★★★★ ()
Ответ на: комментарий от Harald

Аргументы с экономией железа не подходят. Только если опенсорсного софта совсем нет. Тот же сфинкс вполне себе небольшой и шустрый.

Vit ★★★★★ ()
Ответ на: комментарий от pacify

IMHO плохое сравнение. Если всё равно нужен матан, зачем пытаться сбоку прикрутить еще дискретку и счет на пальцах.

Vit ★★★★★ ()
Ответ на: комментарий от Vit

Только вот сфинкс никогда не выведет тебе посты по тегу «пидарасы», если в самих постах нет этого слова.

shimshimshim ()

Теги это один из атрибутов мета-информации. По уму, они должны нести семантический смысл. Например тег 'не нужно' в контексте этого форума, и словосочетание 'не нужно' которое сможет найти поисковый движок, могут нести совершенно разные смысловые нагрузки. Теги это вовсе не ключевые слова.

Кроме того, теги полезны для описания не текстовых объектов, например изображения\музыка.

В контектсе форума, например ЛОРа, теги могут быть полезны, чтобы уточнить контекст сообщения, применив их к заголовку. Если бы теги были бы не отдельной сущностью, их пришлось бы вписывать в заголовки. Или формировать заголовки более полно.

int64 ()
Ответ на: комментарий от int64

Если бы теги были бы не отдельной сущностью, их пришлось бы вписывать в заголовки. Или формировать заголовки более полно.

Так может вместо того чтобы тратить усилия на поддержку тегов в хорошем состоянии, тратить их на поддержку в хорошем состоянии заголовков? Я не про лор, а вообще.

'не нужно' - имхо довольно специфичная вещь, чтобы ради нее городить теги.

То есть вопрос стоит так: есть ХХХ человекоресурсов и не особо лимитированные технические (железо дешевое). Стоит ли тратить ресурсы на теги, или добавить к тому что тратится на поиск.

Под человекоресурсами, которые не резиновые, я подразумеваю в первую очередь модераторов. Во вторую очередь программистов (они нужны только на разработку и на поддержку особо не требуются).

Vit ★★★★★ ()
Ответ на: комментарий от Vit

'не нужно' - имхо довольно специфичная вещь, чтобы ради нее городить теги.

Это лишь как пример. Посмотри на хэштеги в соцсетях. Они призваны описывать конкретные события\вещи\тематики, парой слов. Типа вкживи и все такое.

Так может вместо того чтобы тратить усилия на поддержку тегов в хорошем состоянии, тратить их на поддержку в хорошем состоянии заголовков?

Люди по разному выражают мысли. Одни просто не смогут кратко описать в заголовке проблему так, чтобы она передавала контекст. Другие начнут писать загловки в стиле поисковых запросов. К слову, первые - поисковые запросы не умеют писать, и пишут их естественных языком часто, про таких обычно говорят, что не умеют гуглить.

То есть вопрос стоит так: есть ХХХ человекоресурсов

Насчет этого я ничего не скажу. Это субъективизицая от задачи.

Теги же, полезный атрибут. Такой же полезный как разделение на атрибуты иной меты - даты-время\автор\етк. Иначе бы все можно было бы хранить скопом и пусть движок просто будет очень умным.

int64 ()
Ответ на: комментарий от Vit

Еще как пример, я давно шерстю интернеты (те места где есть ветки обсуждений) и ЛОР в частоности, на писк статей, топиков, веток обсуждения различных концептов\подходов\идей относительно тематики ui\ux в частности именно gui.

Так вот о заголовках, ключевых словах и тегах. даже на ЛОРе я умудряюсь переодически находить непрочитанные мною темы (многолетней давности), хотя казалось бы что уже все ключевые слова перебрал. Это о том, что люди даже об одной тематике, используют разные ключевые слова (гуи, gui, пользовательский интерфейс, графический поьзовательский интерфейс, юзабилити, ui, etc) и не используют иные. И движок ЛОРа, например, вовсе не умеет в онтологии или ассоциативные связи к тегам или ключеввым словам. Приходится перебирать все, или разные комбинации. И результаты будут каждый раз разные.

(еще насколько я понимаю, когда-то на ЛОРе не было тегов, ибо как во многих старых темах, было им подобие и писали теги в начале заголовков в квадратных скобках).

int64 ()

На ЛОРе теги это крайне полезная штука. Например, я хочу читать темы про C++ - подписываюсь на тег C++ и смежные и получаю уведомление о каждой теме с этими тегами. А дальше уже сам решаю, читать тему дальше или нет. Освоив теги я практически прекратил просматривать разделы вручную.

Norgat ★★★★★ ()
Ответ на: комментарий от Vit

Самый навороченный опенсорсный софт для поиска — это как набор инструментов и сваленных в кучу стройматериалов для построения дома. Дом надо построить самому.

Логарифмическое затухание по дате «на лету» реализуется парой строчек много где. Но оно в таком виде годится только для простеньких случаев. Начнёшь в сфинксе мудрить с индексами, обнаружишь что их ребилдить/создавать/дропать на-лету очень геморно там, только для простых случаев на продвинутых сайтах он.

Проблема нормального работающего текстового поиска лежит в индексации правильных меток (тегов) для искомой информации: индекс должен соотнести документ не с термом, а с неким «смыслом», описанным в виде, например, тега. Народные массы сайтодержателей это всё чувствуют, но понять до конца и реализовать нормально не могут. Отсюда и ситуация.

shahid ★★★★★ ()
Ответ на: комментарий от int64

Теги это один из атрибутов мета-информации.

А структура внутри тэгов какая может быть, кроме очевидной - древовидной? Где встречается не-древовидная структура тэгов/ключевых слов?

pacify ★★★★★ ()
Ответ на: комментарий от int64

Граф жи

Мета над метой имеет смысл в этом случае? Применял такое на практике? Или мета почти всегда выгоднее - «плоская», без семантики над ней?

pacify ★★★★★ ()
Ответ на: комментарий от shahid

Я умею пользоваться сфинксом. Ребилд при смене конфигурации штука конечно не очень удобная, но через проксю вполне делается прозрачно для внешнего софта. Это, тупизна пользователей и отсутствие денег на сервер - не те проблемы, которые сейчас имеют значение.

Сейчас вопрос в корректной наполняемости меток и заменяет ли подобный рубрикатор поиск. Если пустить метки на самотек (а этим всё и закончится если проект не коммерческий) - будет ли это сильно лучше чем просто поиск но хорошо настроенный.

Проблема нормального работающего текстового поиска лежит в индексации правильных меток (тегов) для искомой информации: индекс должен соотнести документ не с термом, а с неким «смыслом», описанным в виде, например, тега.

Если ты способен понимать смысл текста, то ручные метки тебе уже не нужны. А если ты предлагаешь дать обезьянам гранаты, чтобы они метками подкручивали ранжирование как хотят - закончится спамом.

Vit ★★★★★ ()
Ответ на: комментарий от int64

Граф жи.

В общем-то ты прав. Тэги представляют собой алфавитный список терминов терминологического словаря. А ссылки между терминами обрамлены в нём контекстом. То есть, обычный тематический словарь может быть образцом для «облака» тэгов. Словари составляют обычно умные и грамотные. Поэтому просто мусор брать в качестве контекста для тэгов нельзя. Можно подхватывать контекст (ассоциативные связи), например, из энциклопедий/словарей/качественных модерируемых ресурсов (или википедии).

индекс должен соотнести документ не с термом, а с неким «смыслом»

shahid, я отчасти ответил на твой вопрос. Немного занимался движком (2012) для хранения семантической информации.

pacify ★★★★★ ()

Тэги — абсолютно левая фигня. К счастью, на ЛОРе пока можно завести тему без них.

Miguel ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.