LINUX.ORG.RU

LaTeX и русский (UNICODE).


0

0

Частенько спрашивают о том как скопировать содержимое PDF'ок,
изготовленных при помощи TeX'а. Результат обычно весьма далёк
от нужного (нижняя строчка klipper'а). Этим страдают и pdftex,
и dvipdfm, и ghostscript (до 8.х). Некоторым нужно ещё и заши-
фровать документ (маниаки). Лучший инструмент для этих целей -
это dvipdfmx. Этот инструмент умеет многое и не страдает недо-
стастом новых версий ghostscript'а, который при шифровании пре-
вращает bookmark'и в неприятность вида \303\352\102\593 и т.д.

PS: Снимок малоинтересный, но почему-то большинство TeX'овых
PDF'ок содержат именно такую каку, и искать по ним практически
невозможно.

>>> Просмотр (1024x768, 116 Kb)

☆☆☆☆☆

Проверено: Shaman007 ()

Re: LaTeX и русский (UNICODE).

А как у него с PostScript, конкретно с PS-Tricks?

Ay49Mihas ★★★★ ()

Re: LaTeX и русский (UNICODE).

\usepackage{cmap}

ogion ★★ ()

Re: LaTeX и русский (UNICODE).

Интересно, а зачем выдирать текст из pdfок? Они не для этого предназначены. Для текста есть исходники.

Ну а про решение здесь уже сообщалось: cmap - только я не уверен есть ли он в tetex по умолчанию. В TeXLive есть

Evgueni ★★★★★ ()

Re: LaTeX и русский (UNICODE).

Да совершенно не понял причём здесь unicode.

Это внутренняя кодировка Type1 шрифтов, на сколько я понимаю, которая вовсе не обязана совпадать с чем либо.

Evgueni ★★★★★ ()
Ответ на: Re: LaTeX и русский (UNICODE). от Evgueni

Re: LaTeX и русский (UNICODE).

> cmap - только я не уверен есть ли он в tetex по умолчанию

Нету (на счет 3.0 незнаю, не видел пока), я качал отдельно из И-нета, но зато pdflatex сгенерил нормальный pdf с нормальными букмарками. И copy/past из этого pdf нормально отрабатывало (по крайней мере в acroread-7.0).

ogion ★★ ()
Ответ на: Re: LaTeX и русский (UNICODE). от Evgueni

Re: LaTeX и русский (UNICODE).

Чего 8[ ???
А если у товарища локаль утфная? Судя по inputenc это как раз имеет место быть.

geekkoo ()

Re: LaTeX и русский (UNICODE).

А может хватит уже латексов а?

tbapb ()
Ответ на: Re: LaTeX и русский (UNICODE). от tbapb

Re: LaTeX и русский (UNICODE).

>А может хватит уже латексов а?

Я не вижу здесь никаких латексов - где вы нашли этот продукт химической промышленности?

Evgueni ★★★★★ ()

Re: LaTeX и русский (UNICODE).

>Частенько спрашивают о том как скопировать содержимое PDF'ок, изготовленных при помощи TeX'а.

Такой подход встречается довольно редко.ИМХО вся вишка *TeX'а как раз состоит в том, что проще воспользоваться сорцами, нежели готовым продуктом. Но спасибо за инфу.

Случаем не опенбокс? Если KDE, скажи название window decoration пожалуйста.

gh0stwizard ★★★★★ ()

Re: LaTeX и русский (UNICODE).

net, eto zuhe kto-to pisal (c)

anonymous ()

Re: LaTeX и русский (UNICODE).

Проще выдирать текст (и не только текст) из PDF загрузив PDF-файл в kword:)

Led ★★★☆☆ ()
Ответ на: Re: LaTeX и русский (UNICODE). от gh0stwizard

Re: LaTeX и русский (UNICODE).

По PDF'кам ещё искать иногда приходится, а не только печатать. Unicode здесь внутри PDF'ок (читай документацию по GS8 и dvipdfmx). Это KDE, тема Glow с квадратными кнопочками.

timur_dav ☆☆☆☆☆ ()
Ответ на: Re: LaTeX и русский (UNICODE). от brazhe

Re: LaTeX и русский (UNICODE).

ДА просто уже неделю одни и тежи скрины... бесит! Даёш чтонить новое..! Например скринщоты с ЛОРОМ :))

tbapb ()
Ответ на: Re: LaTeX и русский (UNICODE). от timur_dav

Re: LaTeX и русский (UNICODE).

> По PDF'кам ещё искать иногда приходится, а не только печатать.

Вот cmap в этом и помогает, если эти pdf'ы в LaTeX делать. В остальных случаях, как правило ничего не получится.

ogion ★★ ()
Ответ на: Re: LaTeX и русский (UNICODE). от tbapb

Re: LaTeX и русский (UNICODE).

>А может хватит уже латексов а?

Нет уж, нет уж! Я вот ничего не понимаю в этом LaTeX, но блин интересно посмотреть, даже самому хотелось бы узнать что-нить об этом. Но, правда, говорят, что инфы о нем мало и вся на английском :((

php-coder ★★★★★ ()
Ответ на: Re: LaTeX и русский (UNICODE). от php-coder

Re: LaTeX и русский (UNICODE).

Сущая неправда, инфы много, очень много. На любых языках.
По поводу cmap - знаю, я его просто не упоминал здесь.

timur_dav ☆☆☆☆☆ ()
Ответ на: Re: LaTeX и русский (UNICODE). от Nuke

Re: LaTeX и русский (UNICODE).

Отвечать я особо не буду, смысла не вижу. А вот встретившись в жизни я тебе физиономию подрихтовал бы. Не перевелись ещё дураки на земле русской.

timur_dav ☆☆☆☆☆ ()
Ответ на: Re: LaTeX и русский (UNICODE). от timur_dav

Re: LaTeX и русский (UNICODE).

Дорогие модераторы, удаляйте пожалуйста таких, Господи, прости, дебилов.

timur_dav ☆☆☆☆☆ ()
Ответ на: Re: LaTeX и русский (UNICODE). от timur_dav

Re: LaTeX и русский (UNICODE).

>timur_dav * (*) (18.11.2005 7:41:32)

Это не на тебя ссылка была. С другой стороны в любом смысле текст явно не педагогичный.

Evgueni ★★★★★ ()
Ответ на: Re: LaTeX и русский (UNICODE). от timur_dav

Re: LaTeX и русский (UNICODE).

Oops. Пардон, и в самом деле - ты просто дурак, а не быдло - отвечал я выродку, который на latex завонялся.

Nuke ()

Adobe и русский (UNICODE).

>  Результат обычно весьма далёк от нужного (нижняя строчка klipper'а).
> Этим страдают 

... некоторые программные продукты фирмы Adobe, которые перекодируют
selection из unicode ...  правильно, в cp1251!

См. http://theor.jinr.ru/~varg/misc/proprietary_software_sucks.png

> Этот инструмент умеет многое и не страдает недостастом новых версий
> ghostscript'а, который при шифровании превращает bookmark'и в
> неприятность вида \303\352\102\593 и т.д.

Ввиду вышесказанного, я не уверен, что это ошибка в gs.


P.S.

Поотрывал бы им все, что свисает и торчит...

Dselect ★★★ ()
Ответ на: Re: LaTeX и русский (UNICODE). от ogion

Adobe и русский (UNICODE), часть 2

>> cmap - только я не уверен есть ли он в tetex по умолчанию
> Нету (на счет 3.0 незнаю, не видел пока)

Есть в 3.0 ...

> но зато pdflatex сгенерил нормальный pdf с нормальными букмарками.

.. но толку с этого cmap никакого, один вред. Как раз и получается
чепуха вроде

\u0422\u0435\u043f\u0435\u0440\u044c

> И copy/past из этого pdf нормально отрабатывало (по крайней мере в
> acroread-7.0).

Про кривость этой adobe'овской поделки я уже писал.

Dselect ★★★ ()
Ответ на: Adobe и русский (UNICODE). от Dselect

Re: Adobe и русский (UNICODE).

IMHO это ошибка, результат при отключении шифрования совершенно другой (нормальный русский текст).

timur_dav ☆☆☆☆☆ ()
Ответ на: Adobe и русский (UNICODE), часть 2 от Dselect

Re: Adobe и русский (UNICODE), часть 2

.. но толку с этого cmap никакого, один вред. Как раз и получается чепуха вроде

\u0422\u0435\u043f\u0435\u0440\u044c

Я такое наблюдал только когда из юникодного приложения (напримет Mozilla, OpenOffice) в неюникодное текст копируешь (Nedit).

С acroreader ничего подобного не получалось.

ogion ★★ ()
Ответ на: Adobe и русский (UNICODE), часть 2 от Dselect

Re: Adobe и русский (UNICODE), часть 2

> .. но толку с этого cmap никакого, один вред.

Что значит никакого толку? Я же выше написал, что именно при его использовании мне и удалось сгенерить pdf, в котором можно было делать поиск по русски и копировать из него русский текст и вставлять в тот же OpenOffice, например.

И все это именно в acroread-7, другими просмотрщиками pdf не пользуюсь.

ogion ★★ ()
Ответ на: Re: Adobe и русский (UNICODE), часть 2 от ogion

RTFM помог

> Что значит никакого толку?

Я плохо документацию читал. А там ведь сказано, что нужно cmap должен
быть первым в преамбуле. Вот теперь действительно все хорошо работает,
и никаких hex-кодов!


P.S.

Но все же не ясно -- каким боком выползла CP1251?

Dselect ★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.