Выпуск веб-приложения для работы с отсканированными документами paperless-ngx 1.8.0

django, ocr, pdf, tesseract

Paperless-ngx — веб-приложение для работы с документами, которое преобразует бумажные документы в электронные, доступные для полнотекстового поиска, скачивания и хранения онлайн.

Paperless-ngx — это ответвление от проекта paperless-ng (который, в свою очередь, является ответвлением оригинального проекта paperlsess), представляет собой веб-приложение на базе Python-фреймворка Django. После загрузки отсканированного документа любым доступным способом (по FTP, через веб-интерфейс, через Android приложение, по электронной почте через IMAP), программа осуществляет OCR, используя движок Tesseract, далее в интерфейсе доступно тегирование, поиск, а также скачивание PDF/A версии документа.

В новой версии:

Скрипты пре/пост обработки используют переменные окружения вместо аргументов командной строки.
Миниатюры в веб-интерфейсе переведены в формат WebP вместо PNG.
Настройки веб-интерфейса сохраняются в базе данных.
При смене языка документа в интерфейсе появляется подсказка о необходимости перезагрузить страницу.
При возникновении ошибки связи с Redis показывается более подробная информация.
В веб-интерфейсе добавлена возможность просмотра очереди документов на обработку.
Прочие улучшения и исправления ошибок.

Посмотреть демоверсию можно на https://demo.paperless-ngx.com, логин/пароль demo/demo.

>>> Подробности

Ссылка

← Яндекс выложил в опенсорс userver — инструмент для создания высоконагруженных приложений

Вышел Linux Mint 21 «Vanessa» →

2 вопроса:

Этот Тесеракт работает офлайн ?
Если джанго внутри то какой минимум питон нужен ? Если снаружи то какой минимум Джанго нужен ?

~~mx__~~ ★★★★★
(30.07.22 07:43:21 MSK)

Ответ на: комментарий от mx__ 30.07.22 07:43:21 MSK

Этот Тесеракт работает офлайн

да

Если джанго внутри то какой минимум питон нужен ? Если снаружи то какой минимум Джанго нужен ?

Последние джанго требуют питон не ниже 3.9, если не ошибаюсь. Обычно их ставят в env, так что можно поставить и джангу и питон и его расширения нужной версии не трогая систему.

~~AVL2~~ ★★★★★
(30.07.22 10:37:50 MSK)

Выпуск веб-приложения

Забавно, что раньше LOR’овцы были готовы друг-другу глотки перегрызть за приставку «веб» в названии и в содержании (самого приложения), теперь дело обстоит иначе. :)

//Возможно, это зависит от самого содержания предмета, хотя вряд ли.

По поводу самого paperless-ngx. Есть у меня куча «физических» книжек, которые были переведены в «электронный» вид с помощью paperless-ngx без каких-либо проблем.

TagMoon
(30.07.22 11:51:05 MSK)
Последнее исправление: TagMoon 30.07.22 11:58:07 MSK (всего исправлений: 2)

скачивание PDF/A версии документа

Если я правильно понял то pdf/a получается при ocr, и в других случаях его вытащить нельзя.

А так удачи авторам, посмотрел requirements.txt, посочувствовал, к сожалению помимо коммерческого pspdfkit и полукоммерческого-полуAGPL mupdf ни одной нормальной либы которая умеет пдф пока нету, тем более для пистона.

upcFrost ★★★★★
(30.07.22 12:31:54 MSK)

Ссылка

Ответ на: комментарий от AVL2 30.07.22 10:37:50 MSK

ошибаешься

Goury ★★★★★
(30.07.22 19:36:50 MSK)

Ответ на: комментарий от Goury 30.07.22 19:36:50 MSK

в чем? Я работал и с тесеракт и пишу на джанге.

~~AVL2~~ ★★★★★
(30.07.22 20:26:32 MSK)

Ответ на: комментарий от AVL2 30.07.22 20:26:32 MSK

Типа для 4.0.х хватит и 3.8 а 4.1 еще не вышла.

Хотя 3.8 официально и в ЕЛ7 есть …

~~mx__~~ ★★★★★
(30.07.22 22:12:16 MSK)

Очешуеть. По пунктам:

Скрипты пре/пост обработки используют переменные окружения вместо аргументов командной строки. - что с тобой не так? О_о
Настройки веб-интерфейса сохраняются в базе данных - ??? О_О
При смене языка документа в интерфейсе появляется подсказка о необходимости перезагрузить страницу - до этого было без подсказки? (сарказм)
При возникновении ошибки связи с Redis показывается более подробная информация - было что до этого? О_о

Anoxemian ★★★★★
(31.07.22 00:57:59 MSK)

Ответ на: комментарий от mx__ 30.07.22 22:12:16 MSK

Сама джанга да. Но расширения уже требуют. У меня проблемки возникли с расширением easy-pdf Подозреваю, что здесь без нее не обощлось.

~~AVL2~~ ★★★★★
(31.07.22 01:11:37 MSK)

Ответ на: комментарий от AVL2 31.07.22 01:11:37 MSK

Странно, я лет 5 назад кропал на питоне и там мне понадбилось генерить пдф, так была какая то либа она работала что с 2х что с 3х питоном…

P.S. https://pypi.org/project/reportlab/

~~mx__~~ ★★★★★
(31.07.22 08:30:03 MSK)
Последнее исправление: mx__ 31.07.22 08:45:20 MSK (всего исправлений: 1)

Ответ на: комментарий от Anoxemian 31.07.22 00:57:59 MSK

Новость скорее про сам софт, чем не про конкретный ченджлог. На лоре эта программа раньше не упоминалась, насколько я могу судить.

DoTheGNU ★
(31.07.22 14:13:02 MSK) автор топика

Ссылка

Объясните, проблемы с распознаванием кириллицы – это особенность демо-ресурса?

Нашел кем-то любезно загруженный документ, поискал его содержимое, не нашел, посмотрел распознанное? содержимое, а там мешанина из букв:

CMPABNEHHE Ne (a)
romavew, (000 Tipomeu @
nape 1620000, Ceepanosccan on, r Exaepmyer, yn Gocneuses, 40 a)
VHH/KTIM nposaeua 12845678912 / 125456789 28)
Teymornpewmen weroampec

ssh2 ★★★★★
(31.07.22 14:33:44 MSK)

Ответ на: комментарий от TagMoon 30.07.22 11:51:05 MSK

Забавно, что раньше LOR’овцы были готовы друг-другу глотки перегрызть за приставку «веб» в названии и в содержании (самого приложения), теперь дело обстоит иначе. :)

Не путай десктопное приложение и портал для коллективной работы. Никто не гонит на сам ЛОР, что это сайт в браузере.

~~AVL2~~ ★★★★★
(31.07.22 20:53:09 MSK)

Ссылка

Ответ на: комментарий от mx__ 31.07.22 08:30:03 MSK

тогда так и было. Но там по сути обертка для хромиума была. А теперь уже сделали более менее полноценный рендеринг.

~~AVL2~~ ★★★★★
(31.07.22 20:54:35 MSK)

Ответ на: комментарий от ssh2 31.07.22 14:33:44 MSK

Скорее, это особенность движка распознавания.

Я не настоящий сварщик, но насколько мне известно, чтобы Tesseract качественно работал с кириллицей (и не только с ней), его надо обучать.

Вот одна из статей на эту тему. Когда-то попадался более подробный текст, с примерами распознавания именно русских шрифтов и данными (чуть ли не на хабре), но сейчас его найти навскидку не могу.

hobbit ★★★★★
(31.07.22 20:55:33 MSK)

Ответ на: комментарий от AVL2 31.07.22 20:54:35 MSK

Немного не понял. Хромиум тут не причем.

~~mx__~~ ★★★★★
(31.07.22 22:20:57 MSK)

Ссылка

Ответ на: комментарий от hobbit 31.07.22 20:55:33 MSK

Обучать свою модель не обязательно, обязательно указать языки (модели), которые применимы для данного текста. Хорошие модели можно взять готовые прямо у разработчиков тессеракта.

token_polyak ★★★★★
(31.07.22 22:56:26 MSK)

Ссылка

Таки шо, tesseract научился с кирилицей и русским языком работать? Или как обычно - англицкий искаропки, а для кириллицы долбайтесь как хотите, становитесь экспертами по tesseract, разберайтесь как проводить обучение, находите корпус текстов с разметкой или выискивайте готовые модели и разберайтесь как подсовывать их в систему. Да, это должен знать и уметь каждый русскоязычный пользователь, каждый русскоязычный пользователь должен не пользоваться программой, а тратить свои дни на настройку этой дичи.

Xintrea ★★★★★
(09.08.22 11:49:48 MSK)