LINUX.ORG.RU

Почему в некоторых сайтах наименование классов рандомные и бессмысленные?

 , , , ,


1

2

Хотел распарсить сайт cian.ru. А там все имена классов в основном как будто сгенерированные, никакого смысла нету в их именах. Смотрится как будто хеш-суммы. Это что за подход, какую методологию он использует? Фото

Ответ на: комментарий от deep-purple

Дак я и понаблюдал. Где-то штук 100 страниц пропустил через Scrapy. Пока что сайт молчок, всё успешно парсится... Ну я так просто предположил что это все тянется из базы. В данном случае C6e8ba5398 - идентификатор объекта, остальные поля адрес, основная информация, агент и т. д. Подтягиваются динамически или хз? Мне конечно же больше всего интересует та методология которая они используют? Я конечно же немного нагуглил «random class name html» но гугл не выдает релевантные результаты.

dimcoin ()

Какую нафиг методологию? Это чтобы сейт не скрейпили, или чтобы рекламу не вырезали или чтобы ломать нежелательные дополнения.

slovazap ★★★★★ ()
Ответ на: комментарий от dimcoin

Не важно из чего он генерируется, важно что это префикс класса. И как много раз тебе уже сказали — скорее всего такая защита от граббинга. Ну, хреновая, что поделаешь, радуйся.

deep-purple ★★★★★ ()

Просто изоляция стилей на уровне компонентов.
Для простого парсинга тебе хватит XPath`ов без привязки к классам\айдишникам.

Deleted ()

Да много раз видел такое в выходном коде реакта и прочего - чтобы не могли вырезать элементы из структуры сайта всякими баннерозками типа uBlock. Ну, и против scrapy тоже =)

menangen ★★★★★ ()
Последнее исправление: menangen (всего исправлений: 1)