LINUX.ORG.RU

есть молоток, есть гвоздь. к чему я это - как построить звездолет?

Anoxemian ★★★★★
()

Искать по запросу headless browser.

unDEFER ★★★★★
()
Ответ на: комментарий от KrasnoGlazik

имитацию пользователя?

This. Посмотри, какие запросы делает браузер к Яндексу, имитируй их на пыхе.

ivn86
()
Ответ на: комментарий от KrasnoGlazik

Задержку какую-нибудь добавить, имитацию пользователя

Ты много знаешь пользователей, которые сутками сидят и долбят поиск?

По теме - для начала нужно применять куки, которые отдаёт яндекс (особенно spravka).

no-such-file ★★★★★
()

На пхп не знаю, но настоятельно советую puppeteer. Ты в джаваскрипт умеешь? Если да, то это идеальный вариант. Но тебя всё равно вычислят и набьют еб.

WitcherGeralt ★★
()

А разве такое вообще бывает? Кое-что, к примеру DOM, можно строить и изменять с помощью соответствующих либ(их иногда для сложных случаев парсинга юзают), но полностью эмулировать браузер на php не реально. Тут вам нужен Headless Chrome c remote-debugging, Selenium, phantomjs или что-то вроде того.

lucentcode ★★★★★
()

Нет такого нормального, все написано для node.js

anonymous
()
Ответ на: комментарий от KrasnoGlazik

В любом случае вы придёте к тому, что после N запросов будет каптча тупо потому что живой человек обычно не делает 24/7 монотонно запросы. Так что либо периодически менять IP (со сбросом кук, разумеется), либо подключать сервисы платного разгадывания каптчи (на них тысячи индусов за копейки в прямом смысле разгадывают каптчи, которые ты им суёшь через API). Либо и то, и другое.

KivApple ★★★★★
()
Ответ на: комментарий от KivApple

Парсинг 24/7 не нужен. Он всего лишь должен будет единожды собирать данные по указанным ключам

KrasnoGlazik
() автор топика
Ответ на: комментарий от lucentcode

если для тестов, то ничего нет лучше cypress. а то, просто запускается браузер без графического интерфейса headless, запускается веб-сокет сервер и безголовому браузеру отдаем приказы по веб-сокетам. есть еще питоновская версия (требует опыта работы с asyncio), но на js кошернее

tz4678 ★★
()
Ответ на: комментарий от tz4678

Иногда просто безголовый браузер нужен, а иногда - для решение для тестов. Спасибо, посмотрю и cypress.

lucentcode ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.