LINUX.ORG.RU

Текст из PDF


1

1

Есть pdf файл с картинками и текстом, надо вытащить текст. Пробовал xpdf-utilits и просто копирование в kpdf но при вставке скопированного\полученного текста в файл я получаю крякозябры. Куда копать?

anonymous

Ответ на: Re: Текст из PDF от marsijanin

Re: Текст из PDF

>А если попробовать перекодировать оный текст из cp1251 в кодировку вашей локали.

Текст который я получаю на выходе уже в utf-8. К слову локаль у меня тоже utf-8 а не cp1251

anonymous ()
Ответ на: Re: Текст из PDF от grey_fenrir

Re: Текст из PDF

Обратил, а толку?

>anonymous@anonymous:~/$ pdftotext -enc cp1251 '/media/sda5/Work/Work/Rudenko.pdf' '/media/sda5/Work/Work/rud.txt' Error: Couldn't find unicodeMap file for the 'cp1251' encoding Error: Couldn't get text encoding anonymous@anonymous:~/$

anonymous ()
Ответ на: Re: Текст из PDF от anonymous

Re: Текст из PDF

У меня все нормально. Дистр - Slackware-current, кодировка - юникод. Может документ испорчен?

cdrw ()

Re: Текст из PDF

попробуй просмортеть из Midnight Commander pdf'ку. Оно покажет только буковки. Копипасть и сохраняяй. Понимаю, быдлоспособ, но работает.

squareroot ★★★ ()
Ответ на: Re: Текст из PDF от squareroot

Re: Текст из PDF

То же самое.. Видно только крякозябры. =(

З.Ы. Kpdf и Xpdf документ просматривают и я вижу в документе русский.

anonymous ()
Ответ на: Re: Текст из PDF от anonymous

Re: Текст из PDF

На сайте XPDF про такое пишут: "когда сильно намудрили с кодировкой, поможет только OCR" :(

acheron ★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.