LINUX.ORG.RU

Копирование текста из pdf

 , ,


0

3

Вот объясните мне, почему в некоторых случаях при копировании текста из pdf все вставляется нормально а в некоторых случаях какая-то абракадабра. При чем в разных ос абракадабра разная :) (Linux Windows) Вот конкретно на этот случай я потратил очень много времени но так ничего понять не смог. Может на этом форуме я найду ответ..

http://dropmefiles.com/wzdtf


Возможный вариант 1: кто рукожопил при создании пдф, какой именно программой рукожопил?

bookman900 ★★★★★ ()

Потому что в pdf кодирование символов не обязано совпадать с какой-либо кодировкой.

sdio ★★★★★ ()

PDF просто дурной формат. Его лучше избегать всеми путями. У меня были файлы, которые нормально отображаются, но печатаются кракозябрами, причём официальным последним адоб ридером. Пришлось печатать принтскрин.

legolegs ★★★★★ ()

Если при компиляции pdf не был подключен пакет cmap, получится "абракадабра", но и ее можно нормально декодировать.

Eddy_Em ☆☆☆☆☆ ()
Ответ на: комментарий от Eddy_Em

Эди, не по теме.
Векторизовал растр, перегнал в пдф. pdflatex собирает эту пдфу в документе растром, как поправить.
И люто бешено негодую, нахрен я убил час рабочего времени, если в итоге все равно растр.

anonymous ()
Ответ на: комментарий от anonymous

Значит, неправильно перегнал.

Если у тебя реально векторный pdf, то pdflatex просто копирует его. Inkscape вроде нормальные pdf делает. Может, ты помимо вектора и растр схоронил в pdf?

Eddy_Em ☆☆☆☆☆ ()
Ответ на: комментарий от Eddy_Em

Inkscape и юзал. Завтра перепроверю свгшку. Но сомнения мучают меня, основная проблема надписи на картинки, они были наложены уже в векторе (перевод делал) По ним и видно, что не вектор, хотя опцию перегнать текст в кривые указывал

anonymous ()
Ответ на: комментарий от bookman900

Возможный вариант 1: кто рукожопил при создании пдф, какой именно программой рукожопил?

Там в свойствах: iText® 5.5.2 ©2000-2014 iText Group NV (ONLINE PDF SERVICES; licensed version)

Впрочем, это, вероятно, уже на стадии постобработки. А генерировать вполне могли из какого-нибудь LaTeX.

proud_anon ★★★★★ ()
Последнее исправление: proud_anon (всего исправлений: 2)

почему в некоторых случаях при копировании текста из pdf все вставляется нормально а в некоторых случаях какая-то абракадабра

Я всё пытаюсь разобраться досконально со внутренним устройством PDF, но не доходят руки.

Однако причина тут в том, что текст в PDF часто выводится встроенными шрифтами (а то и вообще вставлен в виде готового изображения), которые совпадать код-в-код с Юникодом. В твоём файле Evince находит 4 встроенных шрифта, в одном кодировка WinAnsi, в остальных - Custom. Видимо, PDF делался какой-то кривой программой, не поддерживающей Юникод, которая для отображения кириллицы заменила её на хрен знает что и соорудила шрифтов с соответствующими наборами символов.

proud_anon ★★★★★ ()
Последнее исправление: proud_anon (всего исправлений: 1)
Ответ на: комментарий от proud_anon

Я тут думал...может быть в этоп сборщике есть механизм от копирования? Может быть там специально кодировка нарушена? Прочитать то можно, проблем 0. А вот ежели спиратить текст, фигуски?))

bookman900 ★★★★★ ()
Ответ на: комментарий от bookman900

Может быть, и так. Однако если там названия у шрифтов не изменены (т.е. вместо Times New Roman там не какой-нибудь другой шрифт), то распутать это можно ещё точнее, чем картинку, даже без настоящего OCR: просмотреть все глифы во встроенных шрифтах и в оригинальных шрифтах, найти совпадения, получить соответствия странной кодировки с Юникодом.

proud_anon ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.