LINUX.ORG.RU

Текст из PDF


0

0

Есть pdf файл с картинками и текстом, надо вытащить текст. Пробовал xpdf-utilits и просто копирование в kpdf но при вставке скопированного\полученного текста в файл я получаю крякозябры. Куда копать?

anonymous

Ответ на: комментарий от marsijanin

>А если попробовать перекодировать оный текст из cp1251 в кодировку вашей локали.

Текст который я получаю на выходе уже в utf-8. К слову локаль у меня тоже utf-8 а не cp1251

anonymous
()
Ответ на: комментарий от grey_fenrir

Обратил, а толку?

>anonymous@anonymous:~/$ pdftotext -enc cp1251 '/media/sda5/Work/Work/Rudenko.pdf' '/media/sda5/Work/Work/rud.txt' Error: Couldn't find unicodeMap file for the 'cp1251' encoding Error: Couldn't get text encoding anonymous@anonymous:~/$

anonymous
()
Ответ на: комментарий от anonymous

У меня все нормально. Дистр - Slackware-current, кодировка - юникод. Может документ испорчен?

cdrw
()

попробуй просмортеть из Midnight Commander pdf'ку. Оно покажет только буковки. Копипасть и сохраняяй. Понимаю, быдлоспособ, но работает.

squareroot ★★★★
()
Ответ на: комментарий от squareroot

То же самое.. Видно только крякозябры. =(

З.Ы. Kpdf и Xpdf документ просматривают и я вижу в документе русский.

anonymous
()
Ответ на: комментарий от anonymous

На сайте XPDF про такое пишут: "когда сильно намудрили с кодировкой, поможет только OCR" :(

acheron ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.