Linux.org.ru
Новости - Галерея - Форум - Трекер - Wiki - Поиск
[#]  
timur_dav (фотография)

LaTeX и русский (UNICODE).

Частенько спрашивают о том как скопировать содержимое PDF'ок,
изготовленных при помощи TeX'а. Результат обычно весьма далёк
от нужного (нижняя строчка klipper'а). Этим страдают и pdftex,
и dvipdfm, и ghostscript (до 8.х). Некоторым нужно ещё и заши-
фровать документ (маниаки). Лучший инструмент для этих целей -
это dvipdfmx. Этот инструмент умеет многое и не страдает недо-
стастом новых версий ghostscript'а, который при шифровании пре-
вращает bookmark'и в неприятность вида \303\352\102\593 и т.д.

PS: Снимок малоинтересный, но почему-то большинство TeX'овых
PDF'ок содержат именно такую каку, и искать по ним практически
невозможно.

LaTeX и русский (UNICODE).

timur_dav **** (16.11.2005 23:22:48)
Проверено: Shaman007 (17.11.2005 12:24:33)

[#]  
Ay49Mihas (фотография)

Re: LaTeX и русский (UNICODE).

А как у него с PostScript, конкретно с PS-Tricks?

Ay49Mihas **** (17.11.2005 12:38:46)
[#]  
ogion (фотография)

Re: LaTeX и русский (UNICODE).

\usepackage{cmap}

ogion * (17.11.2005 13:23:10)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от Ay49Mihas 17.11.2005 12:38:46  
timur_dav (фотография)

Re: LaTeX и русский (UNICODE).

Примерно как и у dvipdfm.

timur_dav **** (17.11.2005 14:17:16)
[#]  
Evgueni (фотография)

Re: LaTeX и русский (UNICODE).

Интересно, а зачем выдирать текст из pdfок? Они не для этого предназначены. Для текста есть исходники.

Ну а про решение здесь уже сообщалось: cmap - только я не уверен есть ли он в tetex по умолчанию. В TeXLive есть

Evgueni ***** (17.11.2005 14:29:19)
[#]  
Evgueni (фотография)

Re: LaTeX и русский (UNICODE).

Да совершенно не понял причём здесь unicode.

Это внутренняя кодировка Type1 шрифтов, на сколько я понимаю, которая вовсе не обязана совпадать с чем либо.

Evgueni ***** (17.11.2005 14:31:37)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от Evgueni 17.11.2005 14:29:19  
ogion (фотография)

Re: LaTeX и русский (UNICODE).

> cmap - только я не уверен есть ли он в tetex по умолчанию

Нету (на счет 3.0 незнаю, не видел пока), я качал отдельно из И-нета, но зато pdflatex сгенерил нормальный pdf с нормальными букмарками. И copy/past из этого pdf нормально отрабатывало (по крайней мере в acroread-7.0).

ogion * (17.11.2005 14:42:22)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от Evgueni 17.11.2005 14:31:37  
geekkoo (фотография)

Re: LaTeX и русский (UNICODE).

Чего 8[ ???
А если у товарища локаль утфная? Судя по inputenc это как раз имеет место быть.

geekkoo * (17.11.2005 14:48:05)
[#]  

Re: LaTeX и русский (UNICODE).

А может хватит уже латексов а?

tbapb (17.11.2005 15:34:32)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от tbapb 17.11.2005 15:34:32  
Evgueni (фотография)

Re: LaTeX и русский (UNICODE).

>А может хватит уже латексов а?

Я не вижу здесь никаких латексов - где вы нашли этот продукт химической промышленности?

Evgueni ***** (17.11.2005 15:39:42)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от tbapb 17.11.2005 15:34:32  

Re: LaTeX и русский (UNICODE).

А почему тебя так нервирует латекс? Неудачный опыт в жизни?

brazhe (17.11.2005 15:48:05)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от brazhe 17.11.2005 15:48:05  

Re: LaTeX и русский (UNICODE).

Это к tbapb

brazhe (17.11.2005 15:48:53)
[#]  
gh0stwizard (фотография)

Re: LaTeX и русский (UNICODE).

>Частенько спрашивают о том как скопировать содержимое PDF'ок, изготовленных при помощи TeX'а.

Такой подход встречается довольно редко.ИМХО вся вишка *TeX'а как раз состоит в том, что проще воспользоваться сорцами, нежели готовым продуктом. Но спасибо за инфу.

Случаем не опенбокс? Если KDE, скажи название window decoration пожалуйста.

gh0stwizard **** (17.11.2005 16:35:12)
[#]  

Re: LaTeX и русский (UNICODE).

net, eto zuhe kto-to pisal (c)

anonymous (17.11.2005 17:12:14)
[#]  

Re: LaTeX и русский (UNICODE).

Проще выдирать текст (и не только текст) из PDF загрузив PDF-файл в kword:)

Led **** (17.11.2005 17:40:31)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от gh0stwizard 17.11.2005 16:35:12  
timur_dav (фотография)

Re: LaTeX и русский (UNICODE).

По PDF'кам ещё искать иногда приходится, а не только печатать. Unicode здесь внутри PDF'ок (читай документацию по GS8 и dvipdfmx). Это KDE, тема Glow с квадратными кнопочками.

timur_dav **** (17.11.2005 19:04:11)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от brazhe 17.11.2005 15:48:53  

Re: LaTeX и русский (UNICODE).

ДА просто уже неделю одни и тежи скрины... бесит! Даёш чтонить новое..! Например скринщоты с ЛОРОМ :))

tbapb (17.11.2005 19:12:51)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от timur_dav 17.11.2005 19:04:11  
ogion (фотография)

Re: LaTeX и русский (UNICODE).

> По PDF'кам ещё искать иногда приходится, а не только печатать.

Вот cmap в этом и помогает, если эти pdf'ы в LaTeX делать. В остальных случаях, как правило ничего не получится.

ogion * (17.11.2005 19:14:25)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от tbapb 17.11.2005 15:34:32  
php-coder (фотография)

Re: LaTeX и русский (UNICODE).

>А может хватит уже латексов а?

Нет уж, нет уж! Я вот ничего не понимаю в этом LaTeX, но блин интересно посмотреть, даже самому хотелось бы узнать что-нить об этом. Но, правда, говорят, что инфы о нем мало и вся на английском :((

php-coder ***** (17.11.2005 21:18:51)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от php-coder 17.11.2005 21:18:51  

Re: LaTeX и русский (UNICODE).

Неправду говорят

necrophile * (17.11.2005 21:32:58)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от php-coder 17.11.2005 21:18:51  
timur_dav (фотография)

Re: LaTeX и русский (UNICODE).

Сущая неправда, инфы много, очень много. На любых языках.
По поводу cmap - знаю, я его просто не упоминал здесь.

timur_dav **** (17.11.2005 21:59:18)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от tbapb 17.11.2005 19:12:51  

Re: LaTeX и русский (UNICODE).

Ты быдло. Убей себя.

Nuke (18.11.2005 3:28:26)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от Nuke 18.11.2005 3:28:26  
timur_dav (фотография)

Re: LaTeX и русский (UNICODE).

Отвечать я особо не буду, смысла не вижу. А вот встретившись в жизни я тебе физиономию подрихтовал бы. Не перевелись ещё дураки на земле русской.

timur_dav **** (18.11.2005 7:41:32)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от timur_dav 18.11.2005 7:41:32  
timur_dav (фотография)

Re: LaTeX и русский (UNICODE).

Дорогие модераторы, удаляйте пожалуйста таких, Господи, прости, дебилов.

timur_dav **** (18.11.2005 7:44:09)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от timur_dav 18.11.2005 7:41:32  
Evgueni (фотография)

Re: LaTeX и русский (UNICODE).

>timur_dav * (*) (18.11.2005 7:41:32)

Это не на тебя ссылка была. С другой стороны в любом смысле текст явно не педагогичный.

Evgueni ***** (18.11.2005 9:42:12)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от timur_dav 18.11.2005 7:41:32  

Re: LaTeX и русский (UNICODE).

Oops. Пардон, и в самом деле - ты просто дурак, а не быдло - отвечал я выродку, который на latex завонялся.

Nuke (18.11.2005 14:39:41)
[#]  
Dselect (фотография)

Adobe и русский (UNICODE).

>  Результат обычно весьма далёк от нужного (нижняя строчка klipper'а).
> Этим страдают 

... некоторые программные продукты фирмы Adobe, которые перекодируют
selection из unicode ...  правильно, в cp1251!

См. http://theor.jinr.ru/~varg/misc/proprietary_software_sucks.png

> Этот инструмент умеет многое и не страдает недостастом новых версий
> ghostscript'а, который при шифровании превращает bookmark'и в
> неприятность вида \303\352\102\593 и т.д.

Ввиду вышесказанного, я не уверен, что это ошибка в gs.


P.S.

Поотрывал бы им все, что свисает и торчит...

Dselect *** (18.11.2005 19:44:18)
[#] Ответ на: Re: LaTeX и русский (UNICODE). от ogion 17.11.2005 14:42:22  
Dselect (фотография)

Adobe и русский (UNICODE), часть 2

>> cmap - только я не уверен есть ли он в tetex по умолчанию
> Нету (на счет 3.0 незнаю, не видел пока)

Есть в 3.0 ...

> но зато pdflatex сгенерил нормальный pdf с нормальными букмарками.

.. но толку с этого cmap никакого, один вред. Как раз и получается
чепуха вроде

\u0422\u0435\u043f\u0435\u0440\u044c

> И copy/past из этого pdf нормально отрабатывало (по крайней мере в
> acroread-7.0).

Про кривость этой adobe'овской поделки я уже писал.

Dselect *** (18.11.2005 20:01:31)
[#] Ответ на: Adobe и русский (UNICODE). от Dselect 18.11.2005 19:44:18  
timur_dav (фотография)

Re: Adobe и русский (UNICODE).

IMHO это ошибка, результат при отключении шифрования совершенно другой (нормальный русский текст).

timur_dav **** (18.11.2005 20:16:28)
[#] Ответ на: Adobe и русский (UNICODE), часть 2 от Dselect 18.11.2005 20:01:31  
ogion (фотография)

Re: Adobe и русский (UNICODE), часть 2

.. но толку с этого cmap никакого, один вред. Как раз и получается чепуха вроде

\u0422\u0435\u043f\u0435\u0440\u044c

Я такое наблюдал только когда из юникодного приложения (напримет Mozilla, OpenOffice) в неюникодное текст копируешь (Nedit).

С acroreader ничего подобного не получалось.

ogion * (18.11.2005 20:19:53)
[#] Ответ на: Adobe и русский (UNICODE), часть 2 от Dselect 18.11.2005 20:01:31  
ogion (фотография)

Re: Adobe и русский (UNICODE), часть 2

> .. но толку с этого cmap никакого, один вред.

Что значит никакого толку? Я же выше написал, что именно при его использовании мне и удалось сгенерить pdf, в котором можно было делать поиск по русски и копировать из него русский текст и вставлять в тот же OpenOffice, например.

И все это именно в acroread-7, другими просмотрщиками pdf не пользуюсь.

ogion * (18.11.2005 20:49:18)
[#] Ответ на: Re: Adobe и русский (UNICODE), часть 2 от ogion 18.11.2005 20:49:18  
Dselect (фотография)

RTFM помог

> Что значит никакого толку?

Я плохо документацию читал. А там ведь сказано, что нужно cmap должен
быть первым в преамбуле. Вот теперь действительно все хорошо работает,
и никаких hex-кодов!


P.S.

Но все же не ясно -- каким боком выползла CP1251?

Dselect *** (19.11.2005 0:08:02)

О Сервере - Правила форума
http://www.linux.org.ru/

Rambler's Top100 TopList