Парсинг последних новостей

Храни хеши. Но помни про коллизии.

peregrine ★★★★★
(08.01.21 14:17:57 MSK)

Звучит как кейс для rss-читалки.

whoisyou ★
(08.01.21 14:19:59 MSK)

Ссылка

Ты про rss не слышал? Это то, что тебе нужно.

panter_dsd ★★★★★
(08.01.21 14:23:04 MSK)

Ссылка

Ответ на: комментарий от peregrine 08.01.21 14:17:57 MSK

Обясни в двух слова про то и то, но чтоб понятно.

~~D3306~~
(08.01.21 14:38:45 MSK) автор топика

Ответ на: комментарий от D3306 08.01.21 14:38:45 MSK

Пит буль

Singularity ★★★★★
(08.01.21 14:39:57 MSK)

Ссылка

Ответ на: комментарий от D3306 08.01.21 14:38:45 MSK

как это сделать более элегантно, кроме сохранения содержимого в файл и постоянного сравнивания «если было, то…»

Храни хеши содержимого файла (сообщений) и сравнивай хеши того что ты парсишь с тем что у тебя есть. На это надо меньше места на жестком диске. Если тебе надо хранить содержимое, то возможно тоже есть смысл сравнивать хеши, чем искать по всему файлу, ну или обмазывайся СУБД, где всё за тебя посчитали и оптимизировали.

peregrine ★★★★★
(08.01.21 14:53:33 MSK)

Это всё ещё не реально. Что бы кто не думал про достижения в области нейросетей и работы с текстами, вроде GPT-2, понять что текст про одно и тоже почти не возможно. А если это станет возможно, то этот софт можно будет монетизировать за астрономические деньги - проверка фактов и персональные достоверные новости с каждым годом всё более желанный продукт. Вот пример двух заголовков:

Мужчина упал с балкона вслед за кричащей женщиной в Твери

В Твери женщина вышла с балкона, а мужчина - следом за ней

system-root ★★★★★
(08.01.21 15:12:38 MSK)

Ответ на: комментарий от peregrine 08.01.21 14:53:33 MSK

Подходов можно много придумать - от упомянутых хешей по телу (что гарантировано даст спецэффекты из-за апдейтов текстовок) до индекса по урлам или через работу с курсором (если нет задачи работы с архивом и «прочитанностью»).

Но основная проблема - сам парсинг. Rss ТС не уважает, а открытым (бесплатным) api обладают всего несколько новостных сайтов.

А значит ТС будет совокупляться с html-парсингом,то есть гарантировано будет страдать и плакать.

whoisyou ★
(08.01.21 15:20:19 MSK)

Ответ на: комментарий от system-root 08.01.21 15:12:38 MSK

GPT-2

прошлый век, на дворе GPT-3 и оно гораздо круче

peregrine ★★★★★
(08.01.21 15:24:18 MSK)

Ссылка

Ответ на: комментарий от whoisyou 08.01.21 15:20:19 MSK

Тут всем надо пользоваться.

peregrine ★★★★★
(08.01.21 15:25:30 MSK)

Ссылка

Ответ на: комментарий от system-root 08.01.21 15:12:38 MSK

Тут и человек не докажет тождественности без проверки фактологии.

~~anon1984~~ ☆
(08.01.21 15:51:36 MSK)

Ссылка

Ответ на: удаленный комментарий

та да, rss это уже старье со многими недостатками

~~XoFfiCEr~~ ★★☆☆
(08.01.21 15:53:16 MSK)

Ссылка

Ответ на: комментарий от whoisyou 08.01.21 15:20:19 MSK

нет ничего плохого в html-парсинге. Проблема в другом: отделить нужный ТСу новостной контент от всего остального.

~~XoFfiCEr~~ ★★☆☆
(08.01.21 15:54:49 MSK)
Последнее исправление: XoFfiCEr 08.01.21 15:55:46 MSK (всего исправлений: 1)

Ответ на: удаленный комментарий

я не говорил о фатальных.

Rss мертв https://habr.com/ru/company/wirex/blog/411811/

~~XoFfiCEr~~ ★★☆☆
(08.01.21 15:57:09 MSK)

rss давно пора закопать именно по причине смерти и того что он устарел морально.

~~XoFfiCEr~~ ★★☆☆
(08.01.21 15:59:31 MSK)

Ответ на: комментарий от XoFfiCEr 08.01.21 15:54:49 MSK

Ну хоть кто-то с мозгами…

~~D3306~~
(08.01.21 16:33:47 MSK) автор топика

Ссылка

Ответ на: комментарий от system-root 08.01.21 15:12:38 MSK

Что употреблял?

~~D3306~~
(08.01.21 16:34:18 MSK) автор топика

Ответ на: комментарий от whoisyou 08.01.21 15:20:19 MSK

А значит ТС будет совокупляться с html-парсингом,то есть гарантировано будет страдать и плакать.

Ничего подобного.

~~D3306~~
(08.01.21 16:35:17 MSK) автор топика
Последнее исправление: D3306 08.01.21 16:35:54 MSK (всего исправлений: 1)

Ссылка

кстати не встречал НИ ОДНОГО новостного сайта, который бы размещал новости в правильном хронологическом порядке. все они периодически публикуют новости задним числом (т.е. через какое-то время могут разместить новость, которая по времени пред-пред-идущая, хотя изначально её там не было). а пересмотрел я новостных сайтов несколько десятков самых известных. правда было это года 4 назад, как сейчас я не знаю.

teod0r ★★★★★
(08.01.21 16:35:23 MSK)

Ответ на: комментарий от teod0r 08.01.21 16:35:23 MSK

https://archlinux.org/ – один из сайтов.

~~D3306~~
(08.01.21 16:37:44 MSK) автор топика

Ответ на: комментарий от D3306 08.01.21 16:37:44 MSK

под новостными сайтами я имел в виду новости политические

teod0r ★★★★★
(08.01.21 16:40:12 MSK)

Ссылка

Я не программист. Но когда я последний раз занимался подобным, то я получал список ссылок последних новостей с ресурса и искал в нем ссылку последней новости в моей локальной базе новостей. Если находил - добавлял все новости новее по списку и сохранял url самой новой новости для последующего применения. Если в списке свежих новостей не находилась ссылка на последнюю новость в моей базе данных, то запрашивал несколько новостей постарее и так до результата.

Сразу становится понятно, что схема ненадежна, особенно если ссылки на новости могут быть удалены или изменены, или если новые новости добавляются не только в самый конец списка, но для меня это не имело большого значения, потому что делалось для личного применения.

Leupold_cat ★★★★★
(08.01.21 16:45:56 MSK)
Последнее исправление: Leupold_cat 08.01.21 16:54:14 MSK (всего исправлений: 7)

Ссылка

Ответ на: комментарий от teod0r 08.01.21 16:35:23 MSK

да тут лучше бы получить доступ напрямую к базе данных сайта.

~~XoFfiCEr~~ ★★☆☆
(08.01.21 16:50:32 MSK)

Ссылка

ну если бы мне очень нужна была такая фича то решил бы так:

google alerts на почту уведомление об избранных новостях а потом тупо парсить то что гугл пришлет (и это будут самые актуальные новости). http://python-3.ru/page/imap-email-python

~~XoFfiCEr~~ ★★☆☆
(08.01.21 16:52:48 MSK)
Последнее исправление: XoFfiCEr 08.01.21 17:00:11 MSK (всего исправлений: 3)

Открой для себя RSS.

Zhbert ★★★★★
(08.01.21 16:54:00 MSK)

Ответ на: комментарий от Zhbert 08.01.21 16:54:00 MSK

ненадо никому советовать это поделие 1995 года еще.

~~XoFfiCEr~~ ★★☆☆
(08.01.21 16:54:48 MSK)

Ответ на: комментарий от XoFfiCEr 08.01.21 16:54:48 MSK

1995 года еще

И? Тебе приходит по сути ХМЛ с текстом и прочими атрибутами, а дальше делать в три пинка можно. Или ты предлагаешь «стильно модно и молодежно» парсить хтмл целиком?

Zhbert ★★★★★
(08.01.21 16:59:57 MSK)

Ответ на: комментарий от XoFfiCEr 08.01.21 15:59:31 MSK

rss давно пора закопать именно по причине смерти и того что он устарел морально.

Оно работает, работает как надо, и делает то, что нужно ТСу. Откуда такая навязчивая идея закапывать все «старое»? Ты еще музыку как днасек начни только новую слушать.

Zhbert ★★★★★
(08.01.21 17:01:17 MSK)

Ссылка

Ответ на: комментарий от Zhbert 08.01.21 16:59:57 MSK

во первых rss например у лажевого форума phpbb можно отключить.

~~XoFfiCEr~~ ★★☆☆
(08.01.21 17:01:24 MSK)

Ответ на: комментарий от XoFfiCEr 08.01.21 15:54:49 MSK

Проблема в другом: отделить нужный ТСу новостной контент от всего остального.

В RSS такой проблемы нет. И парсить структурированный ХМЛ гораздо проще и быстрее, чем разбираться в дом-каше хтмл.

Zhbert ★★★★★
(08.01.21 17:02:47 MSK)

Ссылка

Ответ на: комментарий от XoFfiCEr 08.01.21 17:01:24 MSK

во первых rss например у лажевого форума phpbb можно отключить.

И? Если сервис с новостями предоставляет тебе удобный интерфейс для их агрегации, почему бы им и не воспользоваться? Если нет - другой вопрос.

Ты еще учти, что в случае с RSS тебе нужно только разбирать примерно одинаковые ХМЛ, а в случае с голым хтмл придется копаться в каше из дивов, причем для каждого сайта они будут разные. То есть для каждого сайта свой парсер, тогда как для RSS он будет один.

Zhbert ★★★★★
(08.01.21 17:05:36 MSK)
Последнее исправление: Zhbert 08.01.21 17:05:46 MSK (всего исправлений: 1)

Ответ на: комментарий от Zhbert 08.01.21 17:05:36 MSK

версии xml меняются и контекст получаемый тоже.

~~XoFfiCEr~~ ★★☆☆
(08.01.21 17:14:05 MSK)

Ответ на: комментарий от XoFfiCEr 08.01.21 17:14:05 MSK

версии xml меняются и контекст получаемый тоже.

Парсить ХМЛ все равно проще, чем копаться в каше из дивов.

Zhbert ★★★★★
(08.01.21 17:15:26 MSK)

Ответ на: комментарий от XoFfiCEr 08.01.21 15:59:31 MSK

А, что, появилось что-то лучше RSS?

ugoday ★★★★★
(08.01.21 17:32:21 MSK)

Ответ на: комментарий от ugoday 08.01.21 17:32:21 MSK

хуже просто трудно найти)

~~XoFfiCEr~~ ★★☆☆
(08.01.21 18:10:13 MSK)

Ответ на: комментарий от XoFfiCEr 08.01.21 18:10:13 MSK

Так и думал, что лучшая альтернатива не будет названа.

ugoday ★★★★★
(08.01.21 18:22:56 MSK)

Ссылка

Ответ на: комментарий от Zhbert 08.01.21 17:15:26 MSK

Точно, а еще темная сторона будет каждый раз ломать парсер, вешать капчу и плавить мозги рок-музыкой пока человеки не начнут использовать инструмент по назначению.

~~anon1984~~ ☆
(08.01.21 18:28:33 MSK)

Ссылка

Ответ на: комментарий от ugoday 08.01.21 17:32:21 MSK

Atom

t184256 ★★★★★
(08.01.21 18:33:21 MSK)

Ответ на: комментарий от t184256 08.01.21 18:33:21 MSK

Так это ж то же самое.

ugoday ★★★★★
(08.01.21 18:35:31 MSK)

Ответ на: комментарий от ugoday 08.01.21 18:35:31 MSK

Эмм, нуу, если отойти и сильно прищуриться, то они оба feed formats.

А ты хотел что-то лучше RSS, но не feed format? Тогда соленая карамель.

t184256 ★★★★★
(08.01.21 18:42:43 MSK)

да он дорвей хочет построить

~~Shulman~~ ☆
(08.01.21 18:49:59 MSK)

Ссылка

Ответ на: комментарий от XoFfiCEr 08.01.21 16:54:48 MSK

Забавно, конечно, смотреть на вас, хипстеров. В то время когда одна половина штудирует научные труды и технологии 70ых и 80ых, вторая готова выкинуть всё, что создано до 2010-ых.

whoisyou ★
(08.01.21 19:06:04 MSK)
Последнее исправление: whoisyou 08.01.21 19:11:32 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от XoFfiCEr 08.01.21 15:54:49 MSK

нет ничего плохого в html-парсинге.

+1.

Проблема в другом: отделить нужный ТСу новостной контент от всего остального.

Надо просто научиться в Xpath. Очень хороший гайд есть, например, в MSDN. Но придется потратить время, чтобы сочинить выражения для каждого сайта.

~~Bagrov~~ ★★★★★
(08.01.21 19:11:14 MSK)

Ответ на: комментарий от Bagrov 08.01.21 19:11:14 MSK

Но придется потратить время, чтобы сочинить выражения для каждого сайта.

Пфф, задача «написать парсер» решается за 5-10 минут, при грамотно подобранном инструментарии.

А вот мониторинг актуальности парсера и оперативное решение проблем с ним - вот тут кроется истинная сложность задачи.

whoisyou ★
(08.01.21 19:15:15 MSK)

Ссылка

Ответ на: комментарий от Zhbert 08.01.21 17:15:26 MSK

Не спойлерите этим забавным господам. Через пять лет расскажем им про пуши и вебхуки (да, уже есть новостные сайты, которые готовы работать и так с Клиентами).

whoisyou ★
(08.01.21 19:17:44 MSK)
Последнее исправление: whoisyou 08.01.21 19:18:56 MSK (всего исправлений: 1)

Ссылка

Парсинг последних новостей

import news rss = News.read(last(«cnn.com»)) print(rss)

anonymous
(08.01.21 19:26:48 MSK)

Ссылка

Ответ на: комментарий от t184256 08.01.21 18:42:43 MSK

Для начала, я хочу получить ответ от господина, напиравшего на «моральное устаревание» RSS. Потому как по мне — атом или рсс это всего лишь малозначимые и неинтересные детали реализации.

ugoday ★★★★★
(08.01.21 19:29:08 MSK)

Ссылка

Делал подобную задачу несколько лет назад. Реализовал таким образом:

Для получения новых статей (новостей) проверял RSS сайтов (но нет никаких проблем вместо этого смотреть sitemap.xml) и брал оттуда список адресов страниц за последние несколько дней
Реализовал шаблон проектирования «стратегия» с правилами парсинга для каждого сайта (стратегию по домену выбирал).
Статью сразу публиковать не стоит (т.к. бывают косяки) - нужно в админке сделать возможность отклонять статьи (занося их URL в чёрный список) перед публикацией.
Картинки надо скачивать к себе и в тексте статей подменять ссылки. Потому что если у тебя сайт с SSL, а ссылка на картинку http, то юзер в браузере будет видеть красный замок в адресной строке (ну или ещё как-то так будет отображаться ошибка SSL, не суть важно). Можно упростить задачу, если заюзать imgproxy, перед которым воткнуть Nginx, включив кеш картинок, но ссылки в текстах статей всё равно надо подменивать.

Алгоритм работы был следующим:

Раз в сутки читал RSS всех сайтов, которые надо парсить, и выбирал оттуда ссылки статьи за последние несколько дней.
Циклом проходил по полученному списку и проверял наличие адреса страницы в моей базе данных.
Если адреса нет в таблице БД, то запускал парсинг, по домену выбирая нужную стратегию. Из HTML вырезал ненужные теги, скачивал к себе картинки, а в тексте статьи менял ссылки на них на свои.
Сохранял статью в таблицу БД, не забыв сохранить адрес источника (в дальнейшем по нему определял, есть у меня такая статья или нет).

Сложность тут в том, что предусмотреть всё невозможно. HTML статей бывает кривым, более тогда иногда меняется. Иногда появляются новые блоки типа твиттер-виджета или рекламы - и из-за этого стратегии парсинга нужно регулярно обновлять, чтобы это всё корректно обрабатывать. Иногда в RSS попадает ссылка, которая редиректит хрен знает куда. То есть сделать и забыть тут не получится - придётся постоянно это дело поддерживать и допиливать. Также необходимо придумать способы обхода различных блокировок: разгадывать каптчу, юзать прокси и т.п.

dimuska139 ★★
(08.01.21 19:44:27 MSK)
Последнее исправление: dimuska139 08.01.21 19:51:28 MSK (всего исправлений: 2)

Ответ на: комментарий от XoFfiCEr 08.01.21 15:54:49 MSK

нет ничего плохого в html-парсинге

Ты эту задачу делал? Я - да. Геморрой полный парсить HTML. Одно дело распарсить один раз, другое - поддерживать это всё. Дизайн сайта поменяли - и лесом идёт твой парсер. И происходит это гораздо чаще, чем кажется.

dimuska139 ★★
(08.01.21 19:48:31 MSK)

Ответ на: комментарий от XoFfiCEr 08.01.21 15:57:09 MSK

Херота эта статья.

ptah_alexs ★★★★★
(08.01.21 20:00:54 MSK)

Ссылка

Похожие темы