LINUX.ORG.RU

как преобразовать в текст pdf, сделанный из РУССКОГО теха


0

0

Суть проблемы в том, что такой pdf содержит шрифты, в которых русские буквы находятся не на своих позициях, а на почти случайных (на каждую встреченную букву дается новая позиция). Позиции в шрифтах разного размера не совпадают и т.д.

Графически распознавать не хочется (хотя советы по графическому распознаванию тоже интересны)

Re: как преобразовать в текст pdf, сделанный из РУССКОГО теха

Еще замечал такие варианты, что буквы в слове (или слова в строчке, не помню) переставлены в обратном порядке.

www_linux_org_ru ★★★★★ ()

Re: как преобразовать в текст pdf, сделанный из РУССКОГО теха

Этот pdf не распознать. При создании новых PDF-ов надо пользоваться \usepackage{cmap} и шрифтами cm-super, тогда текст из них будет правильно извлекаться.

AEP ★★★★★ ()

Re: как преобразовать в текст pdf, сделанный из РУССКОГО теха

виндовый cuneiform под вайном нормально работает, распознаёт на ура

lazyklimm ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.