LINUX.ORG.RU

Объяснить поисковикам что страницу можно индексировать, но не выдавать в результатах

 


0

3

Вот например есть страницы, где выводятся ссылки на статьи, там же отображается часть этих статей. Ну например, как здесь: www.linux.org.ru/news/
Дело в том что, если пользователь в поисковике ищет что-то, что содержится в одной из статей, поисковик может выдать эту страницу, а не саму статью. Но к тому времени эта страница может быть уже не актуальной и эта статья может оказаться уже на другой странице.
Поэтому не желательно чтобы такие страницы вообще попадали в выдачу, но при этом надо чтобы поисковики продолжали их индексировать, чтобы находить ссылки на статьи, чтобы в выдаче были именно они.

Решается ли это как-то?

Deleted

Ответ на: комментарий от chrisred

Ну, можно сказать, всё как в приведённом примере на лоре. Типично для блогов или лент новостей: часть статьи (или целиком, если публикация короткая) и ссылка на саму публикацию, где отображается только она.

Deleted ()

есть sitemap.xml, там пишешь: вес у страниц по адресу news/ - 0.3, а у страниц вида article/* - 0.8

Дальше уже поисковик своей особой магией должен разбираться.

alpha ★★★★★ ()
Последнее исправление: alpha (всего исправлений: 1)
Ответ на: комментарий от alpha

<priority>? А вообще sitemap ну такое... Было бы лучше если бы в мета тегах можно было подобное указать.

Deleted ()
Ответ на: комментарий от Deleted

Чем лучше? sitemap позволяет двумя строчками всё описать, pages там, лента здесь. Зачем эта инфа в каждой странице?

В мета-тегах другие вещи делаются. Например ты можешь задать тип страницы и пометить разные блоки на странице по стандарту http://schema.org/BlogPosting

Это тоже парсится и обрабатывается, чтобы контент в первую очередь индексировать, а не navigation bar например.

Ну и думаю такую базовую вещь как ленту от одной статьи отличить поисковики уже и без тебя делают, своими силами.

alpha ★★★★★ ()
Ответ на: комментарий от alpha

Ну и думаю такую базовую вещь как ленту от одной статьи отличить поисковики уже и без тебя делают, своими силами.

Ну не всегда. Тот же Гугл нередко мне выдаёт ленту вместо статьи на разных сайтах (в том же ЖЖ, например).

Это тоже парсится и обрабатывается, чтобы контент в первую очередь индексировать, а не navigation bar например.

Не люблю микроразметку, imho мусор. В html5 есть же семантические элементы типа <article> и прочее.

Deleted ()
Последнее исправление: pyroman (всего исправлений: 1)
Ответ на: комментарий от Deleted

Да жж небось специально что-то для этого делает. Чтобы ты там побольше рекламы посмотрел. Не верю, чтобы они не осилили нормальную выдачу результата реализовать, если бы захотели.

alpha ★★★★★ ()
Ответ на: комментарий от alpha

У sitemap к тому же есть ограничение на количество «страниц» в «директории». Вот представь каким огромным был бы лоровский sitemap для новостей (в допустимые пределы sitemap все бы не поместились (я не помню, это гугловское ограничение или чьё, но там максимум допустимо несколько тысяч, ЕМНИП)).

Deleted ()
Ответ на: комментарий от Deleted

Я так понимаю туда не всё должно идти.

А как раз главные страницы, разделы, лента.. А дальше уже по ссылочкам.

alpha ★★★★★ ()
Ответ на: комментарий от Deleted

Ну я не специалист, так что могу и попротиворечить.

Вообще я похоже неправильно понимала этот priority-параметр до того.

alpha ★★★★★ ()
Ответ на: комментарий от Deleted

ты можешь много sitemap'ов иметь. в одном не более 50.000 ссылок.

sitemap.xml:

<sitemapindex>
  <sitemap>
    <loc>http://example.org/other-sitemap.xml</loc>
  </sitemap>
</sitemap>

tz4678 ★★ ()
Ответ на: комментарий от tz4678

Да. Убогое правда решение, представь что эти sitemap нужно генерировать для ресурса хотя бы типа лора. Костыльно и безобразно. Ну такое...

Deleted ()
Ответ на: комментарий от Deleted

Лор на это забил. он был создан на заре интернетов, его черно-серый дизайн ака античат прямо от туда - из начала нулевых, а спецификация sitemaps появилась в 2005. Это чисто гугловый протокол: игнорировать его или поддерживать - личное дело владельцев сайта. На ленте sitemap есть https://lenta.ru/sitemap.xml.gz , у mail.ru - у некоторых сервисов, например, https://kino.mail.ru/sitemap.xml . Генерация sitemap на среднестатистическом говносайте типа интернет-магазина - это всего лишь пара запросов к базе. Если же сайт - это набор скриптов со свистоперделками, то можно краулера какого-нибудь использовать/написать, чтобы ходил по ссылкам и генерировал sitemap.xml. Еслиу сайта есть sitemap, то все ссылки попадут в базу гуглобота сразу, а если нету, то пока он их где-нибудь не заметит.

tz4678 ★★ ()

Поэтому не желательно чтобы такие страницы вообще попадали в выдачу, но при этом надо чтобы поисковики продолжали их индексировать, чтобы находить ссылки на статьи, чтобы в выдаче были именно они.

А что поисковику делать, если ленту он уже проиндексировал, а по отдельным статьям еще не заходил? sitemap ок решение.

goingUp ★★★★★ ()
Ответ на: комментарий от tz4678

в cms'ках это проблематично. проще через robots.

Через robots.txt указанную в стартовом топике проблему не решить, так как Disallow-директива в данном случае запрещает поисковому роботу не только индексировать страницу, но и вообще её читать. Для того robots.txt и предназначен - чтобы робот не лез, куда не следует.

Собственно, мой вариант - это типовое решение именно той задачи, которая возникла у ТС-а. Ну а вставка кастомных метатегов на отдельных страницах сайта - это задача вполне решабельная (в CMS-ках можно какой-нибудь плагинчик подобрать). Если сложно вставить метатег, то можно еще задействовать вариант HTTP-шного заголовка.

vinvlad ()
Ответ на: комментарий от tz4678

... если зарубить доступ к промежуточным ссылочным страницам в robots.txt, то придется явно прописывать нужные для индексирования URL-ки в sitemap.xml - лишняя суета...

vinvlad ()
Ответ на: комментарий от vinvlad

<meta name="robots" content="noindex, follow">

Спасибо, интересно. А есть где-то инфа что роботы такую комбинацию однозначно интерпретируют?

К слову, у Яндекса тут в таблице нет ничего про follow даже. Эта комбинация там ниже в примерах упомянута, но ничего конкретно.

У Гугла тоже.

Deleted ()
Последнее исправление: pyroman (всего исправлений: 3)
Ответ на: комментарий от Deleted

А есть где-то инфа что роботы такую комбинацию однозначно интерпретируют?

follow, в принципе, можно не указывать - этот режим действует по умолчанию. Но многие (и я в том числе) предпочитают его явно указывать - для пущей надежности :)

Что касается инфы:
http://www.robotstxt.org/meta.html
https://webmasters.googleblog.com/2007/03/using-robots-meta-tag.html

вот еще пояснение по этому поводу:
https://moz.com/community/q/noindex-or-noindex-follow

Ну и проверено на практике для Гугла и Яндекса.
В принципе, можете задать вопрос в службу поддержки - это, вроде как, самый надежный источник информации - правда, в реальности так бывает не всегда )

vinvlad ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.