Доброго времени всем! По работе возникла необходимость вырезать из html страницы тексты. На вход алгоритму подается html код содержащий текст статьи, в тексте статьи могут быть html теги, но их не так много как за границами данного текста. Нельзя опираться на шаблоны html кода, которые могут показать где начало, а где конец текста, т.е. формат страницы заранее не должен быть известен алгоритму. Пока в голову приходит только libpcre, но вот какой шаблон подобрать чтобы все было так универсальненько я пока не додумался. Если есть идеи или ссылки на код реализующий подобный алгоритм то оставляйте, буду очень благодарен за помощь, да и потомки думаю тоже спасибо скажут =)