Объяснить поисковикам что страницу можно индексировать, но не выдавать в результатах

0

3

Вот например есть страницы, где выводятся ссылки на статьи, там же отображается часть этих статей. Ну например, как здесь: www.linux.org.ru/news/
Дело в том что, если пользователь в поисковике ищет что-то, что содержится в одной из статей, поисковик может выдать эту страницу, а не саму статью. Но к тому времени эта страница может быть уже не актуальной и эта статья может оказаться уже на другой странице.
Поэтому не желательно чтобы такие страницы вообще попадали в выдачу, но при этом надо чтобы поисковики продолжали их индексировать, чтобы находить ссылки на статьи, чтобы в выдаче были именно они.

Решается ли это как-то?

Ссылка

←	Как построить график функции кусочно-заданного вида?

Вызов асинхронной функции в конструкторе класса

→

А у статей есть детальные страницы?

chrisred ★
(08.12.18 21:11:35 MSK)

Ответ на: комментарий от chrisred 08.12.18 21:11:35 MSK

Ну, можно сказать, всё как в приведённом примере на лоре. Типично для блогов или лент новостей: часть статьи (или целиком, если публикация короткая) и ссылка на саму публикацию, где отображается только она.

Deleted
(08.12.18 21:14:22 MSK)

Ссылка

есть sitemap.xml, там пишешь: вес у страниц по адресу news/ - 0.3, а у страниц вида article/* - 0.8

Дальше уже поисковик своей особой магией должен разбираться.

alpha ★★★★★
(08.12.18 21:17:24 MSK)
Последнее исправление: alpha 08.12.18 21:21:03 MSK (всего исправлений: 1)

Ответ на: комментарий от alpha 08.12.18 21:17:24 MSK

<priority>? А вообще sitemap ну такое... Было бы лучше если бы в мета тегах можно было подобное указать.

Deleted
(08.12.18 21:21:04 MSK)

Ответ на: комментарий от Deleted 08.12.18 21:21:04 MSK

Чем лучше? sitemap позволяет двумя строчками всё описать, pages там, лента здесь. Зачем эта инфа в каждой странице?

В мета-тегах другие вещи делаются. Например ты можешь задать тип страницы и пометить разные блоки на странице по стандарту http://schema.org/BlogPosting

Это тоже парсится и обрабатывается, чтобы контент в первую очередь индексировать, а не navigation bar например.

Ну и думаю такую базовую вещь как ленту от одной статьи отличить поисковики уже и без тебя делают, своими силами.

alpha ★★★★★
(08.12.18 21:29:22 MSK)

Ответ на: комментарий от alpha 08.12.18 21:29:22 MSK

Ну и думаю такую базовую вещь как ленту от одной статьи отличить поисковики уже и без тебя делают, своими силами.

Ну не всегда. Тот же Гугл нередко мне выдаёт ленту вместо статьи на разных сайтах (в том же ЖЖ, например).

Это тоже парсится и обрабатывается, чтобы контент в первую очередь индексировать, а не navigation bar например.

Не люблю микроразметку, imho мусор. В html5 есть же семантические элементы типа <article> и прочее.

Deleted
(08.12.18 21:35:07 MSK)
Последнее исправление: pyroman 08.12.18 21:36:51 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 08.12.18 21:35:07 MSK

Да жж небось специально что-то для этого делает. Чтобы ты там побольше рекламы посмотрел. Не верю, чтобы они не осилили нормальную выдачу результата реализовать, если бы захотели.

alpha ★★★★★
(08.12.18 21:36:55 MSK)

Ответ на: комментарий от alpha 08.12.18 21:36:55 MSK

У sitemap к тому же есть ограничение на количество «страниц» в «директории». Вот представь каким огромным был бы лоровский sitemap для новостей (в допустимые пределы sitemap все бы не поместились (я не помню, это гугловское ограничение или чьё, но там максимум допустимо несколько тысяч, ЕМНИП)).

Deleted
(08.12.18 21:40:52 MSK)

Ответ на: комментарий от Deleted 08.12.18 21:40:52 MSK

Я так понимаю туда не всё должно идти.

А как раз главные страницы, разделы, лента.. А дальше уже по ссылочкам.

alpha ★★★★★
(08.12.18 21:54:23 MSK)

Ответ на: комментарий от alpha 08.12.18 21:54:23 MSK

Тогда это противоречит совету выше использовать sitemap.

Deleted
(08.12.18 22:02:33 MSK)

Ответ на: комментарий от Deleted 08.12.18 22:02:33 MSK

Ну я не специалист, так что могу и попротиворечить.

Вообще я похоже неправильно понимала этот priority-параметр до того.

alpha ★★★★★
(08.12.18 22:14:05 MSK)

Ссылка

Ответ на: комментарий от Deleted 08.12.18 21:40:52 MSK

ты можешь много sitemap'ов иметь. в одном не более 50.000 ссылок.

sitemap.xml:

<sitemapindex>
  <sitemap>
    <loc>http://example.org/other-sitemap.xml</loc>
  </sitemap>
</sitemap>

~~tz4678~~ ★★
(10.12.18 13:59:45 MSK)

Ответ на: комментарий от tz4678 10.12.18 13:59:45 MSK

Да. Убогое правда решение, представь что эти sitemap нужно генерировать для ресурса хотя бы типа лора. Костыльно и безобразно. Ну такое...

Deleted
(10.12.18 20:36:06 MSK)

Ответ на: комментарий от Deleted 10.12.18 20:36:06 MSK

Лор на это забил. он был создан на заре интернетов, его черно-серый дизайн ака античат прямо от туда - из начала нулевых, а спецификация sitemaps появилась в 2005. Это чисто гугловый протокол: игнорировать его или поддерживать - личное дело владельцев сайта. На ленте sitemap есть https://lenta.ru/sitemap.xml.gz , у mail.ru - у некоторых сервисов, например, https://kino.mail.ru/sitemap.xml . Генерация sitemap на среднестатистическом говносайте типа интернет-магазина - это всего лишь пара запросов к базе. Если же сайт - это набор скриптов со свистоперделками, то можно краулера какого-нибудь использовать/написать, чтобы ходил по ссылкам и генерировал sitemap.xml. Еслиу сайта есть sitemap, то все ссылки попадут в базу гуглобота сразу, а если нету, то пока он их где-нибудь не заметит.

~~tz4678~~ ★★
(10.12.18 23:34:28 MSK)

Ссылка

Поэтому не желательно чтобы такие страницы вообще попадали в выдачу, но при этом надо чтобы поисковики продолжали их индексировать, чтобы находить ссылки на статьи, чтобы в выдаче были именно они.

А что поисковику делать, если ленту он уже проиндексировал, а по отдельным статьям еще не заходил? sitemap ок решение.

goingUp ★★★★★
(10.12.18 23:39:17 MSK)

Ответ на: комментарий от goingUp 10.12.18 23:39:17 MSK

robots.txt Disallow

~~tz4678~~ ★★
(12.12.18 13:21:00 MSK)

Ссылка

Тег <noindex>.

https://support.google.com/webmasters/answer/93710?hl=en

</thread>

Deleted
(12.12.18 13:25:19 MSK)
Последнее исправление: Rainor 12.12.18 13:26:09 MSK (всего исправлений: 1)

Ссылка

<meta name="robots" content="noindex, follow">

~~vinvlad~~ ★★
(13.12.18 04:47:52 MSK)

Ответ на: комментарий от vinvlad 13.12.18 04:47:52 MSK

в cms'ках это проблематично. проще через robots.

~~tz4678~~ ★★
(13.12.18 13:46:20 MSK)

Ответ на: комментарий от tz4678 13.12.18 13:46:20 MSK

в cms'ках это проблематично. проще через robots.

Через robots.txt указанную в стартовом топике проблему не решить, так как Disallow-директива в данном случае запрещает поисковому роботу не только индексировать страницу, но и вообще её читать. Для того robots.txt и предназначен - чтобы робот не лез, куда не следует.

Собственно, мой вариант - это типовое решение именно той задачи, которая возникла у ТС-а. Ну а вставка кастомных метатегов на отдельных страницах сайта - это задача вполне решабельная (в CMS-ках можно какой-нибудь плагинчик подобрать). Если сложно вставить метатег, то можно еще задействовать вариант HTTP-шного заголовка.

~~vinvlad~~ ★★
(13.12.18 14:38:15 MSK)

Ссылка

Ответ на: комментарий от tz4678 13.12.18 13:46:20 MSK

... если зарубить доступ к промежуточным ссылочным страницам в robots.txt, то придется явно прописывать нужные для индексирования URL-ки в sitemap.xml - лишняя суета...

~~vinvlad~~ ★★
(14.12.18 06:31:08 MSK)

Ссылка

Ответ на: комментарий от vinvlad 13.12.18 04:47:52 MSK

<meta name="robots" content="noindex, follow">

Спасибо, интересно. А есть где-то инфа что роботы такую комбинацию однозначно интерпретируют?

К слову, у Яндекса тут в таблице нет ничего про follow даже. Эта комбинация там ниже в примерах упомянута, но ничего конкретно.

У Гугла тоже.

Deleted
(14.12.18 20:35:33 MSK)
Последнее исправление: pyroman 14.12.18 20:41:13 MSK (всего исправлений: 3)

Ответ на: комментарий от Deleted 14.12.18 20:35:33 MSK

А есть где-то инфа что роботы такую комбинацию однозначно интерпретируют?

follow, в принципе, можно не указывать - этот режим действует по умолчанию. Но многие (и я в том числе) предпочитают его явно указывать - для пущей надежности :)

Что касается инфы:
http://www.robotstxt.org/meta.html
https://webmasters.googleblog.com/2007/03/using-robots-meta-tag.html

вот еще пояснение по этому поводу:
https://moz.com/community/q/noindex-or-noindex-follow

Ну и проверено на практике для Гугла и Яндекса.
В принципе, можете задать вопрос в службу поддержки - это, вроде как, самый надежный источник информации - правда, в реальности так бывает не всегда )

~~vinvlad~~ ★★
(15.12.18 10:45:09 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Как построить график функции кусочно-заданного вида?

Web-development

Вызов асинхронной функции в конструкторе класса

→

Похожие темы