LINUX.ORG.RU

как преобразовать в текст pdf, сделанный из РУССКОГО теха


0

0

Суть проблемы в том, что такой pdf содержит шрифты, в которых русские буквы находятся не на своих позициях, а на почти случайных (на каждую встреченную букву дается новая позиция). Позиции в шрифтах разного размера не совпадают и т.д.

Графически распознавать не хочется (хотя советы по графическому распознаванию тоже интересны)

Еще замечал такие варианты, что буквы в слове (или слова в строчке, не помню) переставлены в обратном порядке.

www_linux_org_ru ★★★★★
() автор топика

Этот pdf не распознать. При создании новых PDF-ов надо пользоваться \usepackage{cmap} и шрифтами cm-super, тогда текст из них будет правильно извлекаться.

AEP ★★★★★
()

виндовый cuneiform под вайном нормально работает, распознаёт на ура

lazyklimm ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.