LINUX.ORG.RU

В том, что там нет текста, например. Сам файл сильно секретный?

anonymous
()

Как это проявляется? Выдёргивает часть текста из (почти) каждой страницы, или выдёргивет первые N страниц и часть N+1-ой?

1) Часть текста -- в виде рисунков. Не лечится, только OCR.

2) Сталкивался всего 2 раза. Один раз это был один из мануалов к Free Pascalю, другой -- какая-то статья из научного журнала. Многие программы внезапно прерывают обработку без объяснения причин (даже если сделать в Acrobat Reader-е Ctrl-A, Ctrl-Ins, затем в текстовом редакторе Shift-Ins), но Ghostview и Acrobat/Adobe Reader всё показывают правильно. Причину не знаю, думаю -- какая-то последовательность управляющих символов. Можно пытаться экспортировать все страницы с 1-ой до N+1-ой, затем с N+2-ой до конца. Разумеется, конец N+1-ой страницы потеряется.

acheron ★★★★
()
Ответ на: комментарий от acheron

Что уж вы меня совсем за ламера держите :-)

Конечно там именно текст (а не изображение). Да и файл не особо секретный. Можете взглянуть на него тут http://87.103.134.45/2.pdf (а тут http://87.103.134.45/2.txt результат работы pdftotext).

Текст на украинском. Обратите внимание на абзац: Із початку року через проблеми ...". Он почему-то не переводится в текст :-(

Kinjo
() автор топика

Мне кажется в первом приближении, что проблема вся в кодировках. Я сейчас запустил pdftotext на твоем примере. Открываю less 2.txt. Тот текст, который ты не видишь, показывается как раз нормально по-украински (у меня локаль уникодная), а основной текст статьи идет в европейских символах, т. е. я смею предположить, что там мешанина из кодировок (уникодная и восьмибитная?). но вот кто виноват и как победить я пока не знаю. Есть какая-то опция у pdftotext -enc. Может, что там можно выцепить?

Zubok ★★★★★
()
Ответ на: комментарий от Zubok

Явно что-то с кодировками. Kpdf часть текста экспортирует в UTF-8 как кириллицу, часть -- как западноевропейские символы. Но экспортируется практически всё.

acheron ★★★★
()
Ответ на: комментарий от acheron

Вот я о том же. ЕМНИП, kpdf основан на xpdf. Причина,к ак мне кажется, в том, что либо (x/k)pdf не опознает одну из кодировок, либо опознает, но у него нет отображения для unicodeMap (а для некоторых языков они есть в /usr/share/xpdf). В xpdfrc есть на этот счет какой-то параметр unicodeMap. Может быть, в нем дело. Но сам я с таким не сталкивался, поэтому вот решений подсказать не могу. Но хотя бы ясно, куда копать.

Zubok ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.