LINUX.ORG.RU

парсинг html, js

 , , , ,


0

2

я делаю свой браузер в терминале https://github.com/nengraf123/browserTui но у меня возникла проблемма, 90% сайтов используют защиту по типу cloudflare, как я могу без использования хромиума, парсить полный сайт, по логике мне нужны только html(википедия и тд) и js(youtube и тд) я уже даже на готовое строение не надеюсь мне чисто нужны данные получаемые с них, и если с html никаких проблем то js так просто не показывается, ну или я не знаю такого способа. Заранее спасибо!

Нормальный у тебя браузер.

std::string APP::page_parcer(std::string url) {
    std::string cmd = "chromium --headless --disable-gpu --dump-dom \"" + url + "\" 2>/dev/null";
    
    std::string result;
    FILE* pipe = popen(cmd.c_str(), "r");
    if (!pipe) return "";
    
    char buffer[4096];
    while (fgets(buffer, sizeof(buffer), pipe) != nullptr) {
        result += buffer;
    }
    pclose(pipe);
    
    return result; // это уже готовый HTML после выполнения JS
}
vbr ★★★★★
()

Примерно так же, как взломать замок. Есть способы, но безопасность сделала своё дело: больше своего времени потратишь в пустую, чем получишь что-то ценное.

kaldeon ★★
()
Ответ на: комментарий от vbr

понятное дело что для тестов для использовал ии , причем со многими подходами, остальной код кроме keyboard написан самостоятельно , в старых версиях можешь даже 3 реализации полностью рабочих вкладок с вводом url, переходом между ними , удалением и добавлением, а так же ресайзом от количества, но я переписал код под ООП так как расширять старый я не мог из за навыков(просто путался в количестве строк)

nengraf123
() автор топика
Ответ на: комментарий от kaldeon

а я и ничего не жду, эта идея варилась у меня в голове года 2, вот и решил реализовать ее(хотя-бы до предела знаний)

nengraf123
() автор топика
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария