LINUX.ORG.RU

Nougat: Neural Optical Understanding for Academic Documents

 , , ,


1

1

Компания Meta опубликовала на Github исходный код ПО, ориентированного на обработку научных документов.

Как правило, научные знания хранятся в книгах и научных журналах, часто в формате PDF. Однако формат PDF приводит к потере семантической информации, особенно в отношении математических выражений. В связи с этим предложено использование модели Nougat (Neural Optical Understanding for Academic Documents), основанной на технологии Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки LaTeX.

Предложенный подход обещает стать перспективным решением для повышения доступности научных знаний в цифровую эпоху.

Исходный код распространяется по лицензии MIT, обученная модель — по CC-BY-NC.

Попробовать можно здесь.

>>> Подробности

★★☆

Проверено: hobbit ()
Последнее исправление: Dimez (всего исправлений: 2)

Ответ на: комментарий от Syncro

Даладно, они вон в штаны наложили, когда ЧатГПТ начал выдавать весьма толковые советы по уничтожению человечества. Целую бригаду филологов наняли, что бы «отучить зверушку от плохого». Кароч, мы бы и рады восстанию, да как-то пока не предвидится.

gns ★★★★★
()
Ответ на: комментарий от gns

фактически это получается реверсный инжиниринг - процесс даже в этой стране разрешенный только в личных некоммерческих целях, а теперь я думаю и последние пиратские пабмеды прикроют под видом защиты от конвейерного воровства и социальной угрозы как порезали и позакрывали публичные апишечки

Syncro ★★★★★
()
Ответ на: комментарий от Syncro

Да пусть восстают! Я за любой кипеш кроме войны и голодовки

gns ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

Ты не один такой. Часто еще математики не пишут пояснения по используемым переменным, и встретить формулу, в которой есть пара обозначений о которых ничего нигде не написано - это обычная практика. Хорошо если она опирается на принцип «здесь так заведено» имея в виду стандартны международной математики. Так еще пишут с умолчаниями потому что так заведено в конкретной математической школе (имеется в виду международная школа как институт), или еще что хуже - просто так заведено в каком-то учебном заведении. Это вообще дичь.

Ну и часто статьи не верифицируются и в них наляпано просто тупо много ошибок.

Предполагается что опытный математик это видит, забивает болт потому что понимает что ошибка банальная и он знает как должно быть правильно. А человеку со стороны с развитым логическим мышлением и хорошим вниманием все эти ошибки вызывают недоумение.

Академическая среда - она относится как-то слишком поверхностно к собственным ошибкам, хотя казалось бы... Я например на долгое время отказался от изучения SQL, так как моя первая книга по SQL была «Базы данных - модели, разработка, реализация» за авторством академического автора Т. Карповой. Я блин не мог понять, как из запросов получаются такие результаты как в книге. А там просто были ошибки на ошибках. Частично они были исправлены во втором издании, которое вышло спустя ~15 лет. Но этого было достаточно чтобы вынести мне мозг, и разувериться в собственных силах понимать элементарные вещи.

Xintrea ★★★★★
()

Неплохо, учитывая, что 95% статей – write-only. Хоть кто-то будет их читать.

buddhist ★★★★★
()

решением для повышения доступности научных знаний в цифровую эпоху

Ахххаха. Основная проблема доступности публикаций - в анальной огороженности рецензируемых журналов. Вторая проблема в мусорности большей части публикаций, которые генерят только для прокачки Хирша. Все эти ваши чятгпт только упростят создание мусорных публикаций, что собственно, уже происходит

Logopeft ★★
()

Ну перегнали в тех. А смысл то в чем? Потом на базе этого тех что? Шоб робаты песали за миня какуюта курсавую? Крайне сомнительно так то что это возможно. Вот запилить бы сетку чтоб ocrила химические уравнения из журналов прямо в smiles а потом еще все варианты из сокращенной общей распихала и поставить на конвеер все архивы хим журналов с торрентов. Это был бы номер даже покруче чем chembl. Постгрес, картридж rdkit и погнали. И дорогущие подписки ненужны

Alfa_Romeo
()
Последнее исправление: Alfa_Romeo (всего исправлений: 2)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.