[pdf][???] вырезать куски из документа картинками

0

1

есть такая задача.

представьте pdf-файл.
в нем есть много строчек, которые начинаются с какой-то подстроки. допустим, «слово».
т.е. много одинаковых «слово», несколько тысяч. между ними - любой текст (могут быть таблицы, графики, что угодно).
это самое «слово» всегда начинается с новой строки.

нужно как-то пробежаться по pdf и повырезать оттуда куски между этими подстроками. чтобы в результате получилась jpg (png, ???) картинка. сделать какбы скриншот этого куска.

есть идеи, как такое сделать?
какие есть такие чудесные библиотеки для работы с pdf (можно для c++/java/python/php/ваш вариант), или что-то, что поможет?