Почему в некоторых сайтах наименование классов рандомные и бессмысленные?

1

2

Хотел распарсить сайт cian.ru. А там все имена классов в основном как будто сгенерированные, никакого смысла нету в их именах. Смотрится как будто хеш-суммы. Это что за подход, какую методологию он использует? Фото

Ссылка

← QtCreator: зависимости запускаемого приложения

.htaccess перенаправление с :80 →

может специально против таких умельцев типа тебя?

вообще, у гугла на страницах регистрации, логина и им подобных такое видел

eternal_sorrow ★★★★★
(04.12.18 17:13:46 MSK)
Последнее исправление: eternal_sorrow 04.12.18 17:14:02 MSK (всего исправлений: 1)

Ответ на: комментарий от eternal_sorrow 04.12.18 17:13:46 MSK

может специально против таких умельцев типа тебя?

может может... а по топику ответить можешь?

Deleted
(04.12.18 17:14:50 MSK)

Ответ на: комментарий от Deleted 04.12.18 17:14:50 MSK

ну откуда ж я знаю. спроси у разработчиков сайта

eternal_sorrow ★★★★★
(04.12.18 17:16:10 MSK)

Ссылка

Защита от парсеров скорее всего. Понаблюдай — они еще эти хешики менять время от времени должны, чтоб твой парсер спотыкался.

deep-purple ★★★★★
(04.12.18 17:19:09 MSK)

Парсь не по имени. Что-то вроде 'div:nth-child(N)'

Deleted
(04.12.18 17:24:37 MSK)

Судя по скрину там к именам классов добавлены статические суффикс и постфикс. Так-себе защита

MrClon ★★★★★
(04.12.18 17:26:32 MSK)

Ссылка

Ответ на: комментарий от deep-purple 04.12.18 17:19:09 MSK

Дак я и понаблюдал. Где-то штук 100 страниц пропустил через Scrapy. Пока что сайт молчок, всё успешно парсится... Ну я так просто предположил что это все тянется из базы. В данном случае C6e8ba5398 - идентификатор объекта, остальные поля адрес, основная информация, агент и т. д. Подтягиваются динамически или хз? Мне конечно же больше всего интересует та методология которая они используют? Я конечно же немного нагуглил «random class name html» но гугл не выдает релевантные результаты.

Deleted
(04.12.18 17:26:57 MSK)

Какую нафиг методологию? Это чтобы сейт не скрейпили, или чтобы рекламу не вырезали или чтобы ломать нежелательные дополнения.

slovazap ★★★★★
(04.12.18 17:30:04 MSK)

Ссылка

Ответ на: комментарий от Deleted 04.12.18 17:26:57 MSK

Не важно из чего он генерируется, важно что это префикс класса. И как много раз тебе уже сказали — скорее всего такая защита от граббинга. Ну, хреновая, что поделаешь, радуйся.

deep-purple ★★★★★
(04.12.18 17:31:04 MSK)

Ссылка

Просто изоляция стилей на уровне компонентов.
Для простого парсинга тебе хватит XPath`ов без привязки к классам\айдишникам.

Deleted
(04.12.18 17:37:23 MSK)

Ссылка

https://medium.freecodecamp.org/reducing-css-bundle-size-70-by-cutting-the-cl...

Вкратце — минификация. Читаемые части имён появляются из фреймворков.

i-rinat ★★★★★
(04.12.18 17:40:49 MSK)

Ссылка

Это защита от парсинга, при том плохая.

peregrine ★★★★★
(04.12.18 22:34:46 MSK)

Ссылка

обфускация. байты экономят

~~tz4678~~ ★★
(04.12.18 23:31:46 MSK)

Ссылка

Ответ на: комментарий от Deleted 04.12.18 17:24:37 MSK

Девтулзы хромиума ЕМНИП умеют получать уникальный селектор выбранного элемента.

Singularity ★★★★★
(04.12.18 23:38:26 MSK)

Ссылка

Да много раз видел такое в выходном коде реакта и прочего - чтобы не могли вырезать элементы из структуры сайта всякими баннерозками типа uBlock. Ну, и против scrapy тоже =)

menangen ★★★★★
(05.12.18 22:57:30 MSK)
Последнее исправление: menangen 05.12.18 22:57:43 MSK (всего исправлений: 1)