Прошу историй успеха с libharu и UTF-8 в PDF.

0

1

Кому удавалось из-под C так скормить libharu текст в UTF-8, чтобы он и в «смотрелках» нормально отображался/находился, и через pdftotext без лишних телодвижений вытаскивался? HPDF_UseUTFEncodings() вызываю, перебираю возможные encoding_name в вызовах HPDF_GetFont() — никак CMap не генерится, текст как есть, байт в байт, уходит в Tj-поток. Подключал и невидимый шрифт из hocr-tools (питонячий reportlab его принимает и выдаёт отличный результат, но хочется-то C…), и всякие юникодовые TTF: CMU Serif, Tinos, Arimo…

Ссылка

Максимум, чего удалось добиться: poppler, mupdf и ghostscript показывают текст правильно; pdfinfo правильно выводит св-ва документа (название и т. п.); но поиск и pdftotext/pdftohtml не работают. Хочется же всего и сразу.

PS: PDF стандартизован ISO через 13 лет после выхода в свет UTF-8, патчу к libharu три с половиной года — и до сих пор такой бардак.

ksa242 ★
(15.04.14 18:53:24 MSK) автор топика

Похожие темы