Хотел распарсить сайт cian.ru. А там все имена классов в основном как будто сгенерированные, никакого смысла нету в их именах. Смотрится как будто хеш-суммы. Это что за подход, какую методологию он использует? Фото
Дак я и понаблюдал. Где-то штук 100 страниц пропустил через Scrapy. Пока что сайт молчок, всё успешно парсится... Ну я так просто предположил что это все тянется из базы. В данном случае C6e8ba5398 - идентификатор объекта, остальные поля адрес, основная информация, агент и т. д. Подтягиваются динамически или хз? Мне конечно же больше всего интересует та методология которая они используют? Я конечно же немного нагуглил «random class name html» но гугл не выдает релевантные результаты.
Не важно из чего он генерируется, важно что это префикс класса. И как много раз тебе уже сказали — скорее всего такая защита от граббинга. Ну, хреновая, что поделаешь, радуйся.
Да много раз видел такое в выходном коде реакта и прочего - чтобы не могли вырезать элементы из структуры сайта всякими баннерозками типа uBlock. Ну, и против scrapy тоже =)