LINUX.ORG.RU

Помогите выбрать библиотеки (и язык) для проекта (обработка зеркала веб-сайта)


0

1

Хочу написать программу для автоматической обработки локального зеркала одного сайта. Программа имеет такие подзадачи:

  • поиск файлов по регекспам в поддереве директории, получение их списка
    (если бы стояла только эта задача, я бы набил однострочник в консоли и все)
  • некоторые из этих файлов - html, и их надо обрабатывать - типа, находить ссылки, проверять соответствие адреса критериям, выдрать текст до переноса строки/следующей ссылки и т. п.
    (если бы стояла задача просто сделать такое с отдельно взятым файлом, я бы решил ее джаваскриптом)
  • взаимодействие с БД (MySQL)
    (тут я знаком только с php'шными mysqli и dbo)

И мне надо реализовать это в одной программе, а не в наборе костылей, требующих запускать отдельные шеллскрипты/вебсервер/браузер. Многократно используемой притом.

Подскажите библиотеки, позволяющие это реализовать это на каком-нибудь из наиболее распространенных языков - сгодятся C/C++, можно Python, желательно не Java.

ЗЫ Наиболее сложная подзадача - разбор гипертекста. Подозреваю, что удобнее JavaScript с его DOM для этого ничего нет. Есть ли какой-то внебраузерный движок, который можно было бы дергать из основной программы, скармливать ему скрипты со страницами и забирать обратно результат?

автоматической обработки локального зеркала одного сайта

rsync?

anonymous ()

Уже вижу, что DOM много где реализован, похоже, libxml2 сгодится.

shatsky ★★ ()

python, perl, ruby ... Что лучше знаешь. У всех них есть DOM, как им пользоваться найдёшь в гугле.

true_admin ★★★★★ ()

желательно не Java

Только хотел посоветовать.

Подозреваю, что удобнее JavaScript с его DOM для этого ничего нет.

Подозреваю, что DOM и в африке DOM.
Опять же, под Java библиотек для парсинга HTML полно (jsoup, например).

Insomnium ★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.