Есть небольшая проблема, вернее даже не столько проблема сколько желание что-то сделать, но оно не настолько важно, чтобы посвятить ему огромное количество времени.
Конкретно есть ряд страниц:
osloskop.net
emulek.com.pl
emulek.com
sharereactor.com
И им подобных. Во всех в левой части меню видим категории. Во всех кликая по этим категориям где-то в описании фильма можно найти его жанр, такой как экшн, драма и им подобные. И это и есть проблема.
Хотелось бы тул который бы все это дело высосал, пропарсил и добавил к тем кактегориям в меню слева категории найденные ним в описании фильмов и раскидал туда фильмы. Ну и гуйню к этому всему.
Я попробовал подступиться к задаче исходя из установки "до понедельника неплохо бы наклепать".
Взял первый попавшийся питоновский html парсер из стандартной библиотеки и сразу же встретился с двумя проблемами:
1. Он парсер SAX'оватый. Это очень неудобно. DOM удобней
2. Как только он натыкается на ошибку в HTML он вылетает с Exception'ом. Это липа. А что если нужная мне информация была перед вылетом?
Решил попробовать с регекспами. После нескольких написанных регекспов и обнаружению что еще надо выкликать в ABCD... и воспоминаниям о распарсивании когда-то давно другого сайта HTML регексами желание всякое пропало.
Стало понятно что задача требует несколько более осмысленного подхода. Отсюда пришло в голову:
1. html parser DOM который не вылетает на ошибках а пытается как движок браузера как-то их игнорировать
2. Итерация в нем же по выражениям XPATH
Ну и собственно что это может сделать? Например в том же питоне? Или можно еще что-то комбинировать? Может прикрутить сюда KHTML?