Nougat: Neural Optical Understanding for Academic Documents

Компания Meta опубликовала на Github исходный код ПО, ориентированного на обработку научных документов.

Как правило, научные знания хранятся в книгах и научных журналах, часто в формате PDF. Однако формат PDF приводит к потере семантической информации, особенно в отношении математических выражений. В связи с этим предложено использование модели Nougat (Neural Optical Understanding for Academic Documents), основанной на технологии Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки LaTeX.

Предложенный подход обещает стать перспективным решением для повышения доступности научных знаний в цифровую эпоху.

Исходный код распространяется по лицензии MIT, обученная модель — по CC-BY-NC.

Попробовать можно здесь.

>>> Подробности

Ссылка

← Linux From Scratch 12.0

Armbian 23.08 →

← 1 2 →

Однако формат PDF приводит к потере семантической информации, особенно в отношении математических выражений.

технологии Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки LaTeX

Какое-то притянутое враньё. Семантика от формата не зависит. Что именно нового то сделали? Конвертер из pdf в tex думаю и так несложно было сделать.

firkax ★★★★★
(03.09.23 13:16:49 MSK)

Я не уверен, что правильно понял из описания что это такое. Это OCR, ориентированная на научные тексты с выхлопом в LaTex или что?

praseodim ★★★★★
(03.09.23 13:24:43 MSK)

Ответ на: комментарий от praseodim 03.09.23 13:24:43 MSK

Да, верно

~~evgeny_aa~~ ★★☆
(03.09.23 13:26:53 MSK) автор топика

Ссылка

а этот документ с шорткатами он распознать не смог. Говорит нет первой страницы https://defkey.com/mpv-media-player-shortcuts?pdfOptions=true

~~monkdt~~
(03.09.23 13:49:52 MSK)

Поправьте новость:

Meta*

* - Запрещенная в России организация

Закон: https://ria.ru/20220321/smi-1779361306.html

~~EXL~~ ★★★★★
(03.09.23 13:51:22 MSK)

Сначала придумывали TeX, что бы публиковать статьи в PDF, теперь пишут распознавалку для PDF, что бы иметь исходники в обратно в TeXе... Ну интересно люди живут... :)

И какое это имеет отношение к доступности научных знаний, интересно? Читать-то все равно придется PDF, а если формул много, так и еще в печатном виде, что бы можно было три пальца в пачку бумаги засунуть в качестве закладок на нужных местах.

gns ★★★★★
(03.09.23 14:06:20 MSK)

решением для повышения доступности научных знаний

Но ведь и так PDF, или я не понял прикола, PDF кому то недоступен?

I-Love-Microsoft ★★★★★
(03.09.23 14:19:24 MSK)

Ответ на: комментарий от I-Love-Microsoft 03.09.23 14:19:24 MSK

Я не знаю кому как, я лично ненавижу читать из PDF. Это вечная проблема с масштабированием.

Возможно, всем ок и это мои личные заморочки. Читаю исключительно с мобилки, с ноутбука/пк не люблю читать.

И мне возможность перегнать PDF в laTeX показалось не лишней.

~~evgeny_aa~~ ★★☆
(03.09.23 14:40:28 MSK) автор топика

Ответ на: комментарий от gns 03.09.23 14:06:20 MSK

Мета к доступности научных знаний имеет примерно такое же отношение, как офтопик к опен сорс

kto_tama ★★★★★
(03.09.23 14:43:14 MSK)

Ответ на: комментарий от I-Love-Microsoft 03.09.23 14:19:24 MSK

решением для повышения доступности научных знаний

Но ведь и так PDF, или я не понял прикола, PDF кому то недоступен?

Очевидно же имеется в виду повышения доступности научных знаний для Large Language Models, которые пока еще плохо умеют добывать знания из картинок)

goingUp ★★★★★
(03.09.23 14:44:30 MSK)

Ответ на: комментарий от kto_tama 03.09.23 14:43:14 MSK

Мета к доступности научных знаний имеет примерно такое же отношение, как офтопик к опен сорс

Они тренируют ИИ, которому нужна доступность научных знаний)

goingUp ★★★★★
(03.09.23 14:45:31 MSK)

Ответ на: комментарий от goingUp 03.09.23 14:45:31 MSK

Они, конечно, могли иметь в виду слепых в этом прес релизе, но выкатили они это в такое время, что лично мне очевидно, для кого они это сделали)

goingUp ★★★★★
(03.09.23 14:50:21 MSK)

Ссылка

для преобразования научных документов в язык разметки LaTeX

повышения доступности научных знаний в цифровую эпоху

Тут вообще взаимоисключающие вещи. Доступность это не про промежуточный формат представления.

Однако формат PDF приводит к потере семантической информации

Нет, что за бред?!

особенно в отношении математических выражений

Лучше увидеть картинку с формулой чем latex её вариант.

В любом случае да будет полезно, например перегнать pdf в LaTeX дооформить, поправить что, пересобрать и всё такое, молодцы без сарказма, но столько пафоса, надуманности, лжи в лицо что прям лицо, рука. Сделали конфертилку на неросетке обмазаную питоном и уже планы эпохальные, нувучные. Прям только одни учёные LaTeX и используют для вёрстки.

LINUX-ORG-RU ★★★★★
(03.09.23 14:57:54 MSK)

Ссылка

Ответ на: комментарий от monkdt 03.09.23 13:49:52 MSK

Да, я тоже попробовал страницу своей же статьи. Говорит тоже, что нет первой страницы.

rustamych ★★★★
(03.09.23 15:01:39 MSK)

Ссылка

Ответ на: комментарий от goingUp 03.09.23 14:44:30 MSK

Ну почти очевидно, спасибо понял

I-Love-Microsoft ★★★★★
(03.09.23 15:02:33 MSK)

Ссылка

Ответ на: комментарий от firkax 03.09.23 13:16:49 MSK

Думаю, сложно.

PDF очень низкоуровневый формат. Там даже переносов строк нет. Две строки это просто два незнависимых блока текста. Таблицы это просто набор линий и набор текстовых блоков.

Проблемы наглядно видны по работе всяких конвертеров PDF to Word. Если в документе есть форматирование сложнее разбиения на абзацы, они выдают в лучшем случае визуально похожий документ, но при попытке редактирования (а именно ради этого и конвертируют) ему становится плохо.

Так что тут нейросети действительно имеют смысл, чтобы вычислять вещи типа таблиц и разбиения на колонки не по принципу «ближайшее текстовое поле к картинке является её подписью», а с учётом смысла. Качество должно повысится.

KivApple ★★★★★
(03.09.23 16:10:02 MSK)

Ответ на: комментарий от KivApple 03.09.23 16:10:02 MSK

Может быть, но всё же, распознавалка именно символов из картинки тут ни при чём. У нас уже есть распознанные буквы, осталось сложить из них документ, и для этого не нужно заново делать OCR.

firkax ★★★★★
(03.09.23 16:15:34 MSK)

Ответ на: комментарий от I-Love-Microsoft 03.09.23 14:19:24 MSK

Роботам недоступны. Разным. Как всяким chatGPT, которые не могут вытащить формулы с картинок, так и поисковым роботам, которым нужны на блюдечке метаданные статьи для возможности продвинутого поиска человеком.

KivApple ★★★★★
(03.09.23 16:18:26 MSK)

Ответ на: комментарий от firkax 03.09.23 16:15:34 MSK

Возникла мысль, что они могут хотеть распознавать старые публикации, которые в PDF в виде целиковых картинок, потому что когда их писали PDF ещё не изобрели или он не был так широко распространён. При этом классические OCR общего назначения плохо справляются с формулами и сложным форматированием.

KivApple ★★★★★
(03.09.23 16:20:53 MSK)
Последнее исправление: KivApple 03.09.23 16:22:24 MSK (всего исправлений: 3)

Ответ на: комментарий от kto_tama 03.09.23 14:43:14 MSK

Ну оффтопик много чего в опенсорс публикует. Я в последнее время подозреваю, что у них там «концепция поменялась». Опять же оффтопик-Research, который кормит Пейтон-Джонса и всю хаскелёвую команду.

Тут, как бы, автор не очень важен, важна концепция. Если бы RMS такое опубликовал с тем же посылом, то я удивился бы ровно так же.

Мне удивителен сам принцип.

gns ★★★★★
(03.09.23 16:27:40 MSK)

Ссылка

Ответ на: комментарий от KivApple 03.09.23 16:20:53 MSK

Ну только если за этим, для уменьшения размера хранимой информации...

Формулы же потом все равно верифицировать глазами придётся, особенно переменные с индексами и подиндексами. Типа x-i--нулевое-запятая может распознаться как x-i-нулевое-житое со вторым индексом. Вот и сиди и верифицируй.

gns ★★★★★
(03.09.23 16:35:32 MSK)

Однако формат PDF приводит к потере семантической информации, особенно в отношении математических выражений.

Чего? К формуле пишется объяснение на естественном языке, и всё.

seiken ★★★★★
(03.09.23 16:55:36 MSK)

Ссылка

Ответ на: комментарий от KivApple 03.09.23 16:18:26 MSK

Могут ли роботы-боботы уже понимать суть математических формул? Как то их преобразовывать, запихивая в математические пакеты

Это было бы классно, потому что авторы формул часто не заморачиваются с адекватным объяснением формул. А писать формулы так чтобы хотя бы искусственному интеллекту было понятно - будет хорошо

Реально, иногда попадают нормальные статьи с хорошим пояснением формул, какие то видеолекции. Вот это сразу разница видна

У меня конечно обида на математиков за качество изложения их статей, то ли я тупой, но мне кажется объективно в 90% статей провалы логики пояснения. И при этом я могу запросто разобраться в какой то очень непростой серией формул, когда реально всё качественно изложено с надлежащими ссылками. Если даже и не полезешь в ссылки, но всё равно ясно - это взято потому то и оттуда то

Неужели я один такой лузер и всем легко даются любые формулы в любой статье? Я объективно вижу просто откровенно провалы в логических цепочках большинства статей с математическими формулами

I-Love-Microsoft ★★★★★
(03.09.23 17:21:09 MSK)

Ответ на: комментарий от evgeny_aa 03.09.23 14:40:28 MSK

Я не знаю кому как, я лично ненавижу читать из PDF.

А мне наоборот pdf нравится. Единственный формат, который не разьезжается от устройства к устройству. Но с мобилок неудобно, да.

Werenter ★★★
(03.09.23 17:27:30 MSK)

Ссылка

Предложенный подход обещает стать перспективным решением для повышения доступности научных знаний в цифровую эпоху.

Исторически в мат.обозначениях всегда царили «разброд и шатание», например © (wikipedia.org), неоднозначные без привязки к датам.
Да и современные математики и физики изощряются в запутывании непосвящённых ребусами типа «графической нотации Пенроуза» © (turbopages.org), кою «без поллитры» никакие Nougat’ы не осилят.

Вывод: предложенный подход обещает стать «переливанием пустого в порожнее» :)

quickquest ★★★★★
(03.09.23 17:39:34 MSK)

Ответ на: комментарий от gns 03.09.23 14:06:20 MSK

Подготавливают формулы для машинного чтения, наверное. Но вот нахрена..?

thesis ★★★★★
(03.09.23 18:29:22 MSK)

Ответ на: комментарий от gns 03.09.23 16:35:32 MSK

Если точность будет процентов 95 хотя бы, то нейроночка сама эти данные верифицирует :)

~~evgeny_aa~~ ★★☆
(03.09.23 18:30:41 MSK) автор топика
Последнее исправление: evgeny_aa 03.09.23 18:31:04 MSK (всего исправлений: 1)

Нет такого OCR, что не любил бы внезапно накосячить. А накосячить в формулах - это уже серьезно, то есть, все равно вычитывать латехи нужно, и это будет делать кожаный мешок.

И главный вопрос: а дальше-то что? Ну есть латехи, а что с ними делать, копипастить руками? Кормить midjourney, чтобы формулы правдоподобно рисовало? Зарабатывать на быстром написании компилятивных дипломов и диссеров?

thesis ★★★★★
(03.09.23 18:33:44 MSK)

Ссылка

Ответ на: комментарий от evgeny_aa 03.09.23 14:40:28 MSK

я лично ненавижу читать из PDF

Ну все равно надо будет генерить документ, не ТеХ же читать.

thesis ★★★★★
(03.09.23 18:34:42 MSK)

Ответ на: комментарий от thesis 03.09.23 18:34:42 MSK

Не интересовался этой темой, но наверное можно как-нибудь в тот же epub перегнать, при желании. Ну или в html хотя бы.

~~evgeny_aa~~ ★★☆
(03.09.23 18:35:53 MSK) автор топика
Последнее исправление: evgeny_aa 03.09.23 18:38:57 MSK (всего исправлений: 1)

Ответ на: комментарий от evgeny_aa 03.09.23 18:30:41 MSK

Сомнительно. Возьмите какой-нибудь учебник типа Яблонского, отсканируйте и распознайте. И сравните результат.

gns ★★★★★
(03.09.23 18:48:07 MSK)

Ссылка

Ответ на: комментарий от thesis 03.09.23 18:29:22 MSK

Вот и я задаюсь этим же вопросом. Если только готовить переиздания книг, существующих только в бумажном виде? Иного объяснения автоперегона в формат для верстки я не нахожу.

gns ★★★★★
(03.09.23 18:51:39 MSK)

Ссылка

Ответ на: комментарий от evgeny_aa 03.09.23 18:35:53 MSK

А толку-то? Как Вам вот этот типографский шедевр (без всяких шуток) в HTML-е?

http://alexandr4784.narod.ru/mf_1.html

Эту книжку с 50х годов не переиздали, насколько мне известно. Стереокартинки, знаете-ли.

gns ★★★★★
(03.09.23 20:08:58 MSK)
Последнее исправление: gns 03.09.23 20:09:19 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от EXL 03.09.23 13:51:22 MSK

ЛОР не СМИ.

mydibyje ★★★★
(03.09.23 20:20:30 MSK)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 03.09.23 17:21:09 MSK

Неужели я один такой лузер и всем легко даются любые формулы в любой статье?

На физтехе рассказывали анекдот. Студенты после лекции Лившица по теорфизике подошли к Лившицу и спросили: — Евгений Михайлович, поясните нам вот это место в вашей с Ландау книжке. Вот тут интеграл, потом что-то, потом «очевидно, что...» и вывод. Мы вот не может как-то понять что тут как. Лившиц посмотрел в книжку и выдал: — ну так это Ландау было очевидно.

gns ★★★★★
(03.09.23 21:34:06 MSK)

Ссылка

Ответ на: комментарий от KivApple 03.09.23 16:20:53 MSK

Я тут привел ссылку на учебник Морса и Фешбаха, так распознать кусок оттуда обсуждаемая нейросетка тоже ниасилила.

gns ★★★★★
(03.09.23 21:39:16 MSK)
Последнее исправление: gns 03.09.23 21:42:42 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 03.09.23 17:21:09 MSK

Могут ли роботы-боботы уже понимать суть математических формул?

Снятся ли андроидам пересдачи экзамена по матану?

Smacker ★★★★★
(03.09.23 22:13:48 MSK)

Ссылка

Ответ на: комментарий от quickquest 03.09.23 17:39:34 MSK

в запутывании непосвящённых ребусами типа «графической нотации Пенроуза»

Прошёл по ссылке. Увидел неправильно нарисованный диодный мост. Закрыл ссылку. «Такой ребус нам не нужен.»

Smacker ★★★★★
(03.09.23 22:16:08 MSK)

Ссылка

Ответ на: комментарий от evgeny_aa 03.09.23 14:40:28 MSK

Вот кусок из моей древней курсовой по преобразованиям Фурье и Уолша. Читайте.

Формулы (\ref{DFT_2}) и (\ref{DFT_3}) выражают точную зависимость
между $N$ отсчетами одного периода спектра дискретизированного сигнала
и $N$ выборочными значениями $x(k\Delta t)$. Эти выражения и
представляют собой пару дискретного преобразования Фурье(ДПФ). Обычно,
формулы (\ref{DFT_2}) и (\ref{DFT_3}) записываются в несколько другом
виде. Принимая шаг дискретизации по времени и частоте за 1 ($\Delta t =         
1, \Omega = 1$ перепишем (\ref{DFT_2}) и (\ref{DFT_3}) в виде:

\begin{equation}                                                                
\label{DFT_x}                                                                   
x(k) = \sum_{n=0}^{N-1} S_d(n) e^{i \frac{2\pi}{N} nk}                          
\end{equation}
begin{equation}                                                                
\label{DFT_S}                                                                   
S_d(n) = \frac{1}{N} \sum_{k=0}^{N-1} x(k) e^{-i \frac{2\pi}{N} nk}.            
\end{equation}

Соотношения (\ref{DFT_x}) и (\ref{DFT_S}) можно переписать в матричной
форме:

\begin{equation}                                                                
\label{DFT_x_matrix}                                                            
\left| \begin{array}{c} x_0 \\ x_1 \\ x_2 \\ \vdots \\ x_{N-1} \end{array} \rig\
ht| =                                                                           
\left( \begin{array}{ccccc}                                                     
1 & 1 & 1 & \ldots & 1 \\                                                       
1 & e^{i\frac{2\pi}{N}} & e^{i\frac{4\pi}{N}} & \ldots & e^{i\frac{2\pi}{N}(N-1\
)} \\                                                                           
1 & e^{i\frac{4\pi}{N}} & e^{i\frac{8\pi}{N}} & \ldots & e^{i\frac{2\pi}{N}2(N-\
1)} \\                                                                          
\vdots & \vdots & \vdots & \vdots & \vdots \\                                   
1 & e^{i\frac{2\pi}{N}(N-1)} & e^{i\frac{4\pi}{N}2(N-1)} & \ldots & e^{i\frac{2\
\pi}{N}{(N-1)}^2}                                                               
\end{array} \right)                                                             
\left| \begin{array}{c} S_0 \\ S_1 \\ S_2 \\ \vdots \\ S_{N-1} \end{array} \rig\
ht|                                                                             
\end{equation}

И как, в техе понятней?

gns ★★★★★
(04.09.23 00:41:52 MSK)
Последнее исправление: gns 04.09.23 00:42:09 MSK (всего исправлений: 1)

Потестил. Неплохо, но не идеально. Тильду над буквами заменил на вектор, \varepsilon распознал как e. Чёрт его знает, на что оно может сгодится, OCR-слой в научных pdf есть даже во всяких ископаемых статьях, набрать формулу с картинки несложно, и проще, чем искать ошибки после такой распознавалки.

JaM ★
(04.09.23 04:02:34 MSK)

Ответ на: комментарий от JaM 04.09.23 04:02:34 MSK

Ага, в формуле - на + поменяет ипись потом =)

LINUX-ORG-RU ★★★★★
(04.09.23 05:02:37 MSK)

Ссылка

Ответ на: комментарий от gns 04.09.23 00:41:52 MSK

При чём здесь «понятней»? Дело в удобстве. С помощью того же pandoc перегнать в docx и будет удобней.

~~evgeny_aa~~ ★★☆
(04.09.23 07:51:44 MSK) автор топика

Ответ на: комментарий от evgeny_aa 04.09.23 07:51:44 MSK

Из pdf через распознавание с ошибками в docx... Сомнительное удобство.Хрен редьки не слаще. И верстка хуже.

gns ★★★★★
(04.09.23 10:42:01 MSK)

Ответ на: комментарий от JaM 04.09.23 04:02:34 MSK

На каком языке был текст?

gns ★★★★★
(04.09.23 10:42:51 MSK)

Ответ на: комментарий от gns 04.09.23 10:42:01 MSK

Ну чисто теоретически можно перегнать даже обратно в ПДФ, но более удобного формата - под конкретный размер экрана читалки, без полей, с приятным шрифтом... Главное, чтобы распозналось нормально.

thesis ★★★★★
(04.09.23 11:03:43 MSK)

Ответ на: комментарий от thesis 04.09.23 11:03:43 MSK

Для этих целей есть всякие pdf2ps, pdfbook и куча тому подобных утилит. Кстати, текст документа со специально «убитым» текстовым слоем неплохо восстанавливается связкой -pdf2ps->ps2ascii. Даже кодировка на выходе будет правильная.

gns ★★★★★
(04.09.23 11:26:15 MSK)

Ссылка

Ответ на: комментарий от gns 03.09.23 14:06:20 MSK

эти экстремисты задумали сделать технологию пострашнее рякта с пхп и машинногенерируемый ТеХ идеально на эту роль подходит, затем они назовут это как-нибудь навроде ПорталНикс, чтобы все путались и сразу бежали в от фантомных болей «синдрома войны в заливе» заслышав что-либо похожее

Syncro ★★★★★
(04.09.23 12:16:14 MSK)

Ответ на: комментарий от Syncro 04.09.23 12:16:14 MSK

Эти люди кроме нейронных сеточек ничего не умеют. Походу, единственное назначение этой хрени — набрать толпу идиотов, которые будут кормить их сетку статьями. Зачем это нужно, кроме абстрактного интереса не есть понятно. Думаю, что нам стоит забыть про это начинание и пожалеть о времени, которое мы потратили на обсуждение этой новости.

gns ★★★★★
(04.09.23 12:48:53 MSK)

Ответ на: комментарий от gns 04.09.23 10:42:51 MSK

Текст английский, русских символов в формулах не было

JaM ★
(04.09.23 13:02:56 MSK)

Ссылка

Ответ на: комментарий от gns 04.09.23 12:48:53 MSK

не очень ясно зачем тут лейтех если для восстания машин удобнее ML

Syncro ★★★★★
(04.09.23 13:07:43 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Linux From Scratch 12.0

Open Source

Armbian 23.08 →

Похожие темы