LINUX.ORG.RU
ФорумTalks

OCR PDF file


0

0

Всезнающий all,

имеется небольшой pdf'ник на немецком, в котором текст походу в виде картинок, хотя следов сканирования не видно, XPDF, KPDF копируют только картинку, как и чем из него сделать текст? их бин в растерянности :)


ну если немецкий, то какой-нить gocr или kooka тебе в помощь

overmind88 ★★★★★
()
Ответ на: комментарий от marsijanin

>>> pdfinfo что говорит?

Creator:        Adobe Acrobat 6.0
Producer:       Adobe Acrobat 6.0 Image Conversion Plug-in
CreationDate:   Tue Aug 12 10:57:08 2008
ModDate:        Tue Aug 12 10:57:09 2008
Tagged:         yes
Pages:          10
Encrypted:      no
Page size:      595.08 x 841.68 pts
File size:      5636333 bytes
Optimized:      yes
PDF version:    1.5


pdftotext выдаёт пустой файл

Den0k
() автор топика
Ответ на: комментарий от Den0k

Значит или юзать указанные OS распознавалки или найти автора pdf, и доходчиво объяснить ему про преимущества djvu перед pdf для хранения сканов.

marsijanin ★★
()
Ответ на: комментарий от marsijanin

>>> Значит или юзать указанные OS распознавалки

Kooka - выглядит красиво, но настолько сыр, походу это альфа альфы ) что не работает фактически, так и ни одной буквы он не выдал, при этом тупо прекращял реагировать на нажатие кнопок раза 3...

Den0k
() автор топика
Ответ на: комментарий от marsijanin

>>> и доходчиво объяснить ему про преимущества djvu перед pdf для хранения сканов.

если найду - объясню, тока сначала расскажите мне что ему объяснять :) имхо, в обоих случаях - зло так как нельзя копипастить/переводить - работать с текстом короче...

Den0k
() автор топика
Ответ на: комментарий от Den0k

В djvu можно встроить текстовый слой. К сожалению для технической литературы это единственный возможный вариант так как правка всех ошибок распознавания, включая формулы крайне трудоемок

DNA_Seq ★★☆☆☆
()
Ответ на: Re^2: OCR PDF file от MadCAD

Пдф с текстом делает например опенофис. Легко и непринужденно.

anonymous
()

вопрос решился с помошью FineReader который умеет импортировать такие pdf и распознавать их.

хочу такое же только под линух...

Den0k
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.