И картинки желательно не убирающее. И разметку хоть как-то сохраняющее. Всё что я видел - надстройки над консольными текстовыми распознавалками (gocr / tesseract/ cuneiform / ocrad / и т.д.). А людям всего Мира нужно как FineReader. И не интерфейс к его облачным серверам за деньги. Как SETERE OCR, выдаваемый за инновацию. И тоже не opensource, да. Может есть где-то альфа-версия 0.0.1? Как люди распознают таблицы? Только текст поверх картинки в pdf? Тот же YAGF понимает таблицы, но выдирает из них только текст, а саму таблицу не рисует! Почему так? Никому не надо? А картинки не трогать и форматирование сохранять? Распознал область текста - остальное скопируй, пачиму удаляиш брат? Новые языки программирования делают, ОС форкают, а распознавалку документов через wine приходится 15 лет запускать…