LINUX.ORG.RU

Nougat: Neural Optical Understanding for Academic Documents

 , , ,


1

1

Компания Meta опубликовала на Github исходный код ПО, ориентированного на обработку научных документов.

Как правило, научные знания хранятся в книгах и научных журналах, часто в формате PDF. Однако формат PDF приводит к потере семантической информации, особенно в отношении математических выражений. В связи с этим предложено использование модели Nougat (Neural Optical Understanding for Academic Documents), основанной на технологии Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки LaTeX.

Предложенный подход обещает стать перспективным решением для повышения доступности научных знаний в цифровую эпоху.

Исходный код распространяется по лицензии MIT, обученная модель — по CC-BY-NC.

Попробовать можно здесь.

>>> Подробности

★★☆

Проверено: hobbit ()
Последнее исправление: Dimez (всего исправлений: 2)

Однако формат PDF приводит к потере семантической информации, особенно в отношении математических выражений.

технологии Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки LaTeX

Какое-то притянутое враньё. Семантика от формата не зависит. Что именно нового то сделали? Конвертер из pdf в tex думаю и так несложно было сделать.

firkax ★★★★★
()

Я не уверен, что правильно понял из описания что это такое. Это OCR, ориентированная на научные тексты с выхлопом в LaTex или что?

praseodim ★★★★★
()

Сначала придумывали TeX, что бы публиковать статьи в PDF, теперь пишут распознавалку для PDF, что бы иметь исходники в обратно в TeXе... Ну интересно люди живут... :)

И какое это имеет отношение к доступности научных знаний, интересно? Читать-то все равно придется PDF, а если формул много, так и еще в печатном виде, что бы можно было три пальца в пачку бумаги засунуть в качестве закладок на нужных местах.

gns ★★★★★
()

решением для повышения доступности научных знаний

Но ведь и так PDF, или я не понял прикола, PDF кому то недоступен?

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

Я не знаю кому как, я лично ненавижу читать из PDF. Это вечная проблема с масштабированием.

Возможно, всем ок и это мои личные заморочки. Читаю исключительно с мобилки, с ноутбука/пк не люблю читать.

И мне возможность перегнать PDF в laTeX показалось не лишней.

evgeny_aa ★★☆
() автор топика
Ответ на: комментарий от I-Love-Microsoft

решением для повышения доступности научных знаний

Но ведь и так PDF, или я не понял прикола, PDF кому то недоступен?

Очевидно же имеется в виду повышения доступности научных знаний для Large Language Models, которые пока еще плохо умеют добывать знания из картинок)

goingUp ★★★★★
()
Ответ на: комментарий от kto_tama

Мета к доступности научных знаний имеет примерно такое же отношение, как офтопик к опен сорс

Они тренируют ИИ, которому нужна доступность научных знаний)

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Они, конечно, могли иметь в виду слепых в этом прес релизе, но выкатили они это в такое время, что лично мне очевидно, для кого они это сделали)

goingUp ★★★★★
()

для преобразования научных документов в язык разметки LaTeX

повышения доступности научных знаний в цифровую эпоху

Тут вообще взаимоисключающие вещи. Доступность это не про промежуточный формат представления.

Однако формат PDF приводит к потере семантической информации

Нет, что за бред?!

особенно в отношении математических выражений

Лучше увидеть картинку с формулой чем latex её вариант.

В любом случае да будет полезно, например перегнать pdf в LaTeX дооформить, поправить что, пересобрать и всё такое, молодцы без сарказма, но столько пафоса, надуманности, лжи в лицо что прям лицо, рука. Сделали конфертилку на неросетке обмазаную питоном и уже планы эпохальные, нувучные. Прям только одни учёные LaTeX и используют для вёрстки.

LINUX-ORG-RU ★★★★★
()
Ответ на: комментарий от monkdt

Да, я тоже попробовал страницу своей же статьи. Говорит тоже, что нет первой страницы.

rustamych ★★★
()
Ответ на: комментарий от firkax

Думаю, сложно.

PDF очень низкоуровневый формат. Там даже переносов строк нет. Две строки это просто два незнависимых блока текста. Таблицы это просто набор линий и набор текстовых блоков.

Проблемы наглядно видны по работе всяких конвертеров PDF to Word. Если в документе есть форматирование сложнее разбиения на абзацы, они выдают в лучшем случае визуально похожий документ, но при попытке редактирования (а именно ради этого и конвертируют) ему становится плохо.

Так что тут нейросети действительно имеют смысл, чтобы вычислять вещи типа таблиц и разбиения на колонки не по принципу «ближайшее текстовое поле к картинке является её подписью», а с учётом смысла. Качество должно повысится.

KivApple ★★★★★
()
Ответ на: комментарий от KivApple

Может быть, но всё же, распознавалка именно символов из картинки тут ни при чём. У нас уже есть распознанные буквы, осталось сложить из них документ, и для этого не нужно заново делать OCR.

firkax ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

Роботам недоступны. Разным. Как всяким chatGPT, которые не могут вытащить формулы с картинок, так и поисковым роботам, которым нужны на блюдечке метаданные статьи для возможности продвинутого поиска человеком.

KivApple ★★★★★
()
Ответ на: комментарий от firkax

Возникла мысль, что они могут хотеть распознавать старые публикации, которые в PDF в виде целиковых картинок, потому что когда их писали PDF ещё не изобрели или он не был так широко распространён. При этом классические OCR общего назначения плохо справляются с формулами и сложным форматированием.

KivApple ★★★★★
()
Последнее исправление: KivApple (всего исправлений: 3)
Ответ на: комментарий от kto_tama

Ну оффтопик много чего в опенсорс публикует. Я в последнее время подозреваю, что у них там «концепция поменялась». Опять же оффтопик-Research, который кормит Пейтон-Джонса и всю хаскелёвую команду.

Тут, как бы, автор не очень важен, важна концепция. Если бы RMS такое опубликовал с тем же посылом, то я удивился бы ровно так же.

Мне удивителен сам принцип.

gns ★★★★★
()
Ответ на: комментарий от KivApple

Ну только если за этим, для уменьшения размера хранимой информации...

Формулы же потом все равно верифицировать глазами придётся, особенно переменные с индексами и подиндексами. Типа x-i--нулевое-запятая может распознаться как x-i-нулевое-житое со вторым индексом. Вот и сиди и верифицируй.

gns ★★★★★
()

Однако формат PDF приводит к потере семантической информации, особенно в отношении математических выражений.

Чего? К формуле пишется объяснение на естественном языке, и всё.

seiken ★★★★★
()
Ответ на: комментарий от KivApple

Могут ли роботы-боботы уже понимать суть математических формул? Как то их преобразовывать, запихивая в математические пакеты

Это было бы классно, потому что авторы формул часто не заморачиваются с адекватным объяснением формул. А писать формулы так чтобы хотя бы искусственному интеллекту было понятно - будет хорошо

Реально, иногда попадают нормальные статьи с хорошим пояснением формул, какие то видеолекции. Вот это сразу разница видна

У меня конечно обида на математиков за качество изложения их статей, то ли я тупой, но мне кажется объективно в 90% статей провалы логики пояснения. И при этом я могу запросто разобраться в какой то очень непростой серией формул, когда реально всё качественно изложено с надлежащими ссылками. Если даже и не полезешь в ссылки, но всё равно ясно - это взято потому то и оттуда то

Неужели я один такой лузер и всем легко даются любые формулы в любой статье? Я объективно вижу просто откровенно провалы в логических цепочках большинства статей с математическими формулами

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от evgeny_aa

Я не знаю кому как, я лично ненавижу читать из PDF.

А мне наоборот pdf нравится. Единственный формат, который не разьезжается от устройства к устройству. Но с мобилок неудобно, да.

Werenter ★★★
()

Предложенный подход обещает стать перспективным решением для повышения доступности научных знаний в цифровую эпоху.

Исторически в мат.обозначениях всегда царили «разброд и шатание», например ©, неоднозначные без привязки к датам.
Да и современные математики и физики изощряются в запутывании непосвящённых ребусами типа «графической нотации Пенроуза» ©, кою «без поллитры» никакие Nougat’ы не осилят.

Вывод: предложенный подход обещает стать «переливанием пустого в порожнее» :)

quickquest ★★★★★
()

Нет такого OCR, что не любил бы внезапно накосячить. А накосячить в формулах - это уже серьезно, то есть, все равно вычитывать латехи нужно, и это будет делать кожаный мешок.

И главный вопрос: а дальше-то что? Ну есть латехи, а что с ними делать, копипастить руками? Кормить midjourney, чтобы формулы правдоподобно рисовало? Зарабатывать на быстром написании компилятивных дипломов и диссеров?

thesis ★★★★★
()
Ответ на: комментарий от thesis

Не интересовался этой темой, но наверное можно как-нибудь в тот же epub перегнать, при желании. Ну или в html хотя бы.

evgeny_aa ★★☆
() автор топика
Последнее исправление: evgeny_aa (всего исправлений: 1)
Ответ на: комментарий от evgeny_aa

Сомнительно. Возьмите какой-нибудь учебник типа Яблонского, отсканируйте и распознайте. И сравните результат.

gns ★★★★★
()
Ответ на: комментарий от thesis

Вот и я задаюсь этим же вопросом. Если только готовить переиздания книг, существующих только в бумажном виде? Иного объяснения автоперегона в формат для верстки я не нахожу.

gns ★★★★★
()
Ответ на: комментарий от evgeny_aa

А толку-то? Как Вам вот этот типографский шедевр (без всяких шуток) в HTML-е?

http://alexandr4784.narod.ru/mf_1.html

Эту книжку с 50х годов не переиздали, насколько мне известно. Стереокартинки, знаете-ли.

gns ★★★★★
()
Последнее исправление: gns (всего исправлений: 1)
Ответ на: комментарий от I-Love-Microsoft

Неужели я один такой лузер и всем легко даются любые формулы в любой статье?

На физтехе рассказывали анекдот. Студенты после лекции Лившица по теорфизике подошли к Лившицу и спросили: — Евгений Михайлович, поясните нам вот это место в вашей с Ландау книжке. Вот тут интеграл, потом что-то, потом «очевидно, что...» и вывод. Мы вот не может как-то понять что тут как. Лившиц посмотрел в книжку и выдал: — ну так это Ландау было очевидно.

gns ★★★★★
()
Ответ на: комментарий от KivApple

Я тут привел ссылку на учебник Морса и Фешбаха, так распознать кусок оттуда обсуждаемая нейросетка тоже ниасилила.

gns ★★★★★
()
Последнее исправление: gns (всего исправлений: 1)
Ответ на: комментарий от I-Love-Microsoft

Могут ли роботы-боботы уже понимать суть математических формул?

Снятся ли андроидам пересдачи экзамена по матану?

Smacker ★★★★
()
Ответ на: комментарий от quickquest

в запутывании непосвящённых ребусами типа «графической нотации Пенроуза»

Прошёл по ссылке. Увидел неправильно нарисованный диодный мост. Закрыл ссылку. «Такой ребус нам не нужен.»

Smacker ★★★★
()
Ответ на: комментарий от evgeny_aa

Вот кусок из моей древней курсовой по преобразованиям Фурье и Уолша. Читайте.

Формулы (\ref{DFT_2}) и (\ref{DFT_3}) выражают точную зависимость
между $N$ отсчетами одного периода спектра дискретизированного сигнала
и $N$ выборочными значениями $x(k\Delta t)$. Эти выражения и
представляют собой пару дискретного преобразования Фурье(ДПФ). Обычно,
формулы (\ref{DFT_2}) и (\ref{DFT_3}) записываются в несколько другом
виде. Принимая шаг дискретизации по времени и частоте за 1 ($\Delta t =         
1, \Omega = 1$ перепишем (\ref{DFT_2}) и (\ref{DFT_3}) в виде:

\begin{equation}                                                                
\label{DFT_x}                                                                   
x(k) = \sum_{n=0}^{N-1} S_d(n) e^{i \frac{2\pi}{N} nk}                          
\end{equation}
begin{equation}                                                                
\label{DFT_S}                                                                   
S_d(n) = \frac{1}{N} \sum_{k=0}^{N-1} x(k) e^{-i \frac{2\pi}{N} nk}.            
\end{equation}

Соотношения (\ref{DFT_x}) и (\ref{DFT_S}) можно переписать в матричной
форме:

\begin{equation}                                                                
\label{DFT_x_matrix}                                                            
\left| \begin{array}{c} x_0 \\ x_1 \\ x_2 \\ \vdots \\ x_{N-1} \end{array} \rig\
ht| =                                                                           
\left( \begin{array}{ccccc}                                                     
1 & 1 & 1 & \ldots & 1 \\                                                       
1 & e^{i\frac{2\pi}{N}} & e^{i\frac{4\pi}{N}} & \ldots & e^{i\frac{2\pi}{N}(N-1\
)} \\                                                                           
1 & e^{i\frac{4\pi}{N}} & e^{i\frac{8\pi}{N}} & \ldots & e^{i\frac{2\pi}{N}2(N-\
1)} \\                                                                          
\vdots & \vdots & \vdots & \vdots & \vdots \\                                   
1 & e^{i\frac{2\pi}{N}(N-1)} & e^{i\frac{4\pi}{N}2(N-1)} & \ldots & e^{i\frac{2\
\pi}{N}{(N-1)}^2}                                                               
\end{array} \right)                                                             
\left| \begin{array}{c} S_0 \\ S_1 \\ S_2 \\ \vdots \\ S_{N-1} \end{array} \rig\
ht|                                                                             
\end{equation}

И как, в техе понятней?

gns ★★★★★
()
Последнее исправление: gns (всего исправлений: 1)

Потестил. Неплохо, но не идеально. Тильду над буквами заменил на вектор, \varepsilon распознал как e. Чёрт его знает, на что оно может сгодится, OCR-слой в научных pdf есть даже во всяких ископаемых статьях, набрать формулу с картинки несложно, и проще, чем искать ошибки после такой распознавалки.

JaM
()
Ответ на: комментарий от evgeny_aa

Из pdf через распознавание с ошибками в docx... Сомнительное удобство.Хрен редьки не слаще. И верстка хуже.

gns ★★★★★
()
Ответ на: комментарий от gns

Ну чисто теоретически можно перегнать даже обратно в ПДФ, но более удобного формата - под конкретный размер экрана читалки, без полей, с приятным шрифтом... Главное, чтобы распозналось нормально.

thesis ★★★★★
()
Ответ на: комментарий от thesis

Для этих целей есть всякие pdf2ps, pdfbook и куча тому подобных утилит. Кстати, текст документа со специально «убитым» текстовым слоем неплохо восстанавливается связкой -pdf2ps->ps2ascii. Даже кодировка на выходе будет правильная.

gns ★★★★★
()
Ответ на: комментарий от gns

эти экстремисты задумали сделать технологию пострашнее рякта с пхп и машинногенерируемый ТеХ идеально на эту роль подходит, затем они назовут это как-нибудь навроде ПорталНикс, чтобы все путались и сразу бежали в от фантомных болей «синдрома войны в заливе» заслышав что-либо похожее

Syncro ★★★★★
()
Ответ на: комментарий от Syncro

Эти люди кроме нейронных сеточек ничего не умеют. Походу, единственное назначение этой хрени — набрать толпу идиотов, которые будут кормить их сетку статьями. Зачем это нужно, кроме абстрактного интереса не есть понятно. Думаю, что нам стоит забыть про это начинание и пожалеть о времени, которое мы потратили на обсуждение этой новости.

gns ★★★★★
()
Ответ на: комментарий от gns

Текст английский, русских символов в формулах не было

JaM
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.