В скрипте pdfocr на Руби есть две проблемы: (1) у распознанного pdf’a размер безумно больше, чем у входящего; (2) нет опции соединения языков для tesseract, вроде rus+eng. В связи с этим его использование затруднено, и хочется сделать всё то же, что делает он, но самому и полноценно. Основной вопрос:
Какой командой можно объединить в pdf распознаваемую скан-картинку и текстовый файл-вывод tesseract так, чтобы в объединенном pdf’e собственно текст накладывался на текст картинки, и его можно было выделять и копировать?
Знатоки Руби, помогите, пожалуйста, извлечь понимание этого момента из кода скрипта. Код скрипта: https://github.com/gkovacs/pdfocr