LINUX.ORG.RU

Шрифты в PDF выглядят как отсканированные

 , ,


1

2

Во многих статьях с ieeexplore шрифты выглядят как будто это отсканированная картинка. Но текст можно выделить и скопировать.

Выглядит это вот так: https://picua.org/image/IwyeN

Как это можно побороть и можно ли?

В pdf есть возможность добавить распознаный текст «позади» отсканированной картинки, это позволяет видеть оригинальную книгу, но, при этом, искать в ней по словам и копировать выделенный текст. М.б. это оно.

redgremlin ★★★★★
()

Поддерживаю предыдущий комментарий. Исправить это нельзя.

aquadon ★★★★★
()
Ответ на: комментарий от redgremlin

Чето не нашел в доке по пдфу как это делается. Какие-нибудь ключевые, ангельские слова подскажите, плиз.

anonymous
()
Ответ на: комментарий от Avial

hocr в доке не нашлось (смотрю в pdf32000_2008.pdf).

C djvu не путаете ? Там точно можно положить текст, но выделить-скопировать вроде нельзя (только весь тект сохранить целиком).

anonymous
()
Ответ на: комментарий от anonymous

В джвю вроде можно, но в gimagereader, например, такой вариант сканирования с созданием пдф называется как раз hOCR

Avial ★★★★★
()
Ответ на: комментарий от redgremlin

Понятно, спасибо. Будем жрать, что дают.

Confucij
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.