LINUX.ORG.RU

Ответ на: комментарий от pylin

Вы даже платную «распознавалку» не найдете, которая смогла бы вам из сложного текста с формулами, картинками, сносками и т.п. генерировать полноценный латеховский файл. Технология ИИ до этого еще не дошла!

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Я извиняюсь, но:

  • При чем здесь ИИ? Мы имеем ведь два формальных языка
  • На оба языка дана спека.
  • Значит можно составить вполне однозначный алгоритм перевода
  • Да проблема может быть в том что Adobeвская спека умалчивает детали формата
  • А для самого TeX проблема это подбор необходимых пакетов в режиме автомата
pylin ★★★★★
() автор топика
Ответ на: комментарий от pylin

При чем здесь ИИ? Мы имеем ведь два формальных языка

На оба языка дана спека

начит можно составить вполне однозначный алгоритм перевода

Даю контрпример: у вас есть исходник на С и скомпилированный из него бинарник. Имеем два формальных языка, но еще никто не научился из бинарника получать грамотный сишный файл! В вашем случае - то же самое.

Да проблема может быть в том что Adobeвская спека умалчивает детали формата

А для самого TeX проблема это подбор необходимых пакетов в режиме автомата

Даже если бы формат был полностью открыт, без ИИ ничего не получится. Ну и конечно, подбор нужных пакетов тоже важен - как вы без ИИ определите, какой пакет будет лучше подключить?

Даже автоматическое генерирование списка литературы и предметного указателя - почти невыполнимая задача.

Блоки текста из pdf можно, конечно, «перевести» в латех, чтобы полностью сохранить внешний вид. Но редактировать такой файл вы не сможете. Попробуйте-ка открыть pdf при помощи ОО и попытаться его отредактировать...

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

> Попробуйте-ка открыть pdf при помощи ОО и попытаться его отредактировать...

Т.е. невозможно конвертировать pdf в редактируемый формат?

anonymous
()
Ответ на: комментарий от pylin

> Да проблема может быть в том что Adobeвская спека умалчивает детали формата

Сомневаюсь, что стандарт умалчивает.

anonymous
()
Ответ на: комментарий от anonymous

В латеховый файл, который можно будет легко читать и полноценно править. А не так, как это делается в том же ОО - либо можно поправить только одно-два слова, либо же вручную придется все блоки с текстом выравнивать...

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Стоп стоп. Пример с бинарником некорректен, здесь идет преобразование с потерей информации. Ведь в бинарнике уже нет никаких данных специфичных для С(переменные, метки и прочее), нет уже той системы ссылок на функции как они были даны в исходнике. В конце концов здесь еще встает вопрос однозначного декодирования, читающим. Учитывая, что к тому же способов представления СИшной конструкции в асме много, то задача трудна. Однако та же технология FLIRT в IDA и некоторые расширения, написанные как аспирантские работы, позволяют по листингу получать С-описание функций из асма н и некоторую другую информацию для С.

Другой контрпример: ведь сейчас не является большим ноухау, то что преобразуется DOC<->ODF, однако форматы разные, но описывают одно и то же так сказать разным синтаксисом и структурой языка.

Еще пример: была у меня программа, которая конвертировала С-шеые хидеры в паскалевские заголовочные файлы. Языки разные, однако опять при преобразовании не происходит потери информации и есть возможность однозначного сопоставления.

Ну и самое забавное: написали же конвертор для преобразования PDF->doc, значит все же можно ?

pylin ★★★★★
() автор топика
Ответ на: комментарий от pylin

И вполне все читабельно и редактируемо

pylin ★★★★★
() автор топика
Ответ на: комментарий от pylin

Пример с бинарником некорректен, здесь идет преобразование с потерей информации.

Компилирование latex->pdf идет аналогично, с потерей информации.

ведь сейчас не является большим ноухау, то что преобразуется DOC<->ODF, однако форматы разные, но описывают одно и то же так сказать разным синтаксисом и структурой языка.

Неверное сравнение: doc и odf форматы выполняют примерно одно и то же. А вот попробуйте ка преобразовать pdf документ в корректный odt - ничего у вас не выйдет...

была у меня программа, которая конвертировала С-шеые хидеры в паскалевские заголовочные файлы. Языки разные, однако опять при преобразовании не происходит потери информации и есть возможность однозначного сопоставления.

Здесь тоже некорректное сравнение: мы имеем два исходника, пусть и на разных языках, но между ними несказанно больше общего, чем у исходника и скомпилированного из него бинарника.

Ну и самое забавное: написали же конвертор для преобразования PDF->doc, значит все же можно ?

Не сталкивался. Но считаю, что он не может работать корректно (с использованием стилей, автоматическими сносками, оглавлениями, списками литературы). Да те же формулы вы никак не сможете полноценно отобразить в doс-файле.

Хотя, простой текст преобразовать несложно - но для этого и простым pdftext'ом можно воспользоваться...

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Оглавление было, список литры по-моему то же, а с формулами да есть проблема. Потом тут потеря не настолько масштабна как в вашем примере. Да и никто ж не ждет 100% конвертации,напильником работы никто не отвергает)

pylin ★★★★★
() автор топика
Ответ на: комментарий от fluorite

Ну это некошерно по двум причинам: 1) Конвертор пропиетарный 2) Работает только под оффтопиком

pylin ★★★★★
() автор топика
Ответ на: комментарий от fluorite

ОК. Вот вам два pdf-файла, скомпилированных из латеха: раз и два. Сможете сделать из них полноценный doc-файл с сохранением разметки, формул, автоматического предметного указателя и оглавления, да еще такой, который можно будет легко править вручную?

А сгенерировать потом из него латеховский документ, который тоже можно будет легко редактировать, не путаясь в бешеном количестве вложенных box'ов и всякими \cyrA вместо русских букв?..

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от pylin

Были какие-то onlain. А так Eddy_Em прав, задача в общем виде не решается.

fluorite ★★★★★
()
Ответ на: комментарий от Eddy_Em

>А сгенерировать потом из него латеховский документ, который тоже можно будет легко редактировать, не путаясь в бешеном количестве вложенных box'ов и всякими \cyrA вместо русских букв?..

OpenOffice вроде умел экспортировать в латех

Heretique
()
Ответ на: комментарий от Heretique

Наткнулся тут на то что это умеет AbiWord

pylin ★★★★★
() автор топика
Ответ на: комментарий от Heretique

OpenOffice вроде умел экспортировать в латех

Вот про нечитаемость полученного «экспортного» файла я и говорил. Попробуйте простенький документ, не содержащий сложной разметки, таблиц и т.п. экспортировать из ОО в латех. Увидите, что руками проще.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Да но конвертация AbiWord оказалась нечитабельной. Придется делать руками

pylin ★★★★★
() автор топика

ABBYY pdf transformer, несвободный

dn2010 ★★★★★
()
Ответ на: комментарий от fluorite

Моя pdf'ка сделана как раз pdflatex'ом:

производитель: pdfTeX-1.40.3

Чтобы не ухудшать качество pdf перегоном latex->dvi->pdf, картинки я сохранял сразу и в eps, и в jpg (т.е. при «теховании» выбирались eps-файлы, а при использовании pdflatex'а - jpeg'и).

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от fluorite

> Кстати, в чем преимущество pdfetex перед pdflatex?

pdflatex = pdftex + latex-макросы, при этом pdftex = pdfetex.

reader
()

> PDF->TeX

Есть ли такой свободный конвертер?

Есть. рассказываю алгоритм;

а) открываете pdf в любом вьювере

б) читаете, кто автор и находите его контакты

в) пишите автору мотивированный запрос и просите выслать исходники

г) получаете исходники

д) профит

P.S. Да мотивация вида: «мне лень писать реферат самостоятельно» — мотивацией не является.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

Не угодали с мотивацией: перевод одной доки многостраничной на наш родной, а реферат проще самому написать, чем чужие косяки править

pylin ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.