LINUX.ORG.RU
ФорумTalks

Сканирование документов для домашнего архива: выбор формата/кодека для хранения, параметров сканирования

 , ,


0

1

В каких графических форматах и с какими параметрами кодеков ЛОРовцы хранят оцифрованные бумаги?

Каких правил придерживаетесь при сканировании черно-белых документов и в серых градациях?

Речь не идёт об очень важных документах, и, с одной стороны, не вижу смысла хранить терабайт сканов в сверхвысоком разрешении с полной палитрой цветов, с другой стороны, эти документы, возможно, понадобится распечатать, и тогда сохранение с значительной потерей качества приведёт или к артефактам, или к заметной пикселизации.

Может, кому-то приходилось копаться в этом или заниматься оцифровкой бумаг, хотя бы полупрофессионально, и он расскажет об найденной золотой середине и подводных камнях.

Пока что я остановился на 300dpi для обычных распечатанных документов и 600dpi для мелкого шрифта, хранение в lossless TIFF с сжатием (пока не определился, с каким), и использование grayscale, если нет цветных подписей и печатей. Ещё смотрю в сторону lossless WebP.

P.S. Нашёл ещё какой-то лютый бенчмарк http://qlic.altervista.org, разбираюсь.

В каких графических форматах и с какими параметрами кодеков ЛОРовцы хранят оцифрованные бумаги?

В PNG или PDF с lossless-сжатием, в полном физическом разрешении сканера. Хотя про более современные кодеки и контейнеры я бы и сам послушал.

с одной стороны, не вижу смысла хранить терабайт сканов в сверхвысоком разрешении с полной палитрой цветов

ЛОРовцы советуют купить диск достаточного размера и не маяться хернёй.

intelfx ★★★★★
()
Последнее исправление: intelfx (всего исправлений: 2)
Ответ на: комментарий от intelfx

В PNG или PDF с lossless-сжатием, в полном физическом разрешении сканера.

А DJVU теперь не модно? У самого стоит такая же задача, как и у ТС, в todo листе на ближайшее время и собирался именно его использовать.

roiman
()
Ответ на: комментарий от roiman

А DJVU теперь не модно?

Не знаю :)

DJVU умеет сохранять/учитывать физические размеры исходного документа? Инструменты для редактирования, хотя бы на уровне pdftk, есть?

intelfx ★★★★★
()
Последнее исправление: intelfx (всего исправлений: 2)
Ответ на: комментарий от intelfx

DJVU умеет сохранять/учитывать физические размеры исходного документа?

Имеешь в виду размер листа? Да, умеет.

Инструменты для редактирования, хотя бы на уровне pdftk, есть?

Здесь я полный чайник. В смысле добавить заметку там и пр.? Не знаю. Я давно не следил за темой, поэтому и спросил. Раньше точно не было. Я даже не знаю, есть ли у него сейчас lossless-профили.

P.S. Pravorskyi, ТС, извиняюсь, что влез в тему со своими вопросами.

roiman
()
Последнее исправление: roiman (всего исправлений: 2)
Ответ на: комментарий от intelfx

Я знаю, что у него есть возможность индексирования: оглавление, текстовый слой из OCR’a для поиска и пр. такие штуки.

roiman
()
Ответ на: комментарий от roiman

Имеешь в виду размер листа? Да, умеет.

Да. Ну то есть если я нарисую на листе бумаги квадрат 100x100, отсканирую его в PDF, а потом напечатаю этот PDF на принтере с корректно настроенными полями, я в идеале получу точно такой же квадрат.

Здесь я полный чайник. В смысле добавить заметку там и пр.?

Не. Хотя бы перетасовать/вырезать/вставить страницы. Хотя насчёт полноценного редактирования тоже хороший вопрос: PDF я могу, например, в Inkscape открыть, а как с этим у DJVU?

intelfx ★★★★★
()
Последнее исправление: intelfx (всего исправлений: 1)
Ответ на: комментарий от intelfx

Да. Ну то есть если я нарисую на листе бумаги квадрат 100x100, отсканирую его в PDF, а потом напечатаю этот PDF на принтере с корректно настроенными полями, я в идеале получу точно такой же квадрат.

Да, точно умеет.

Не. Хотя бы перетасовать/вырезать/вставить страницы.

Тоже умеет.

Когда я следил за темой, pdf, наоборот, отставал по возможностям от djvu. К примеру, теми же профилями сжатия. Главными преимуществами djvu было несколько слоев, к примеру, ч/б текст и цветные картинки, и просто сумасшедшие уровни сжатия. Книжку в несколько сот страниц можно ужать до 5-10 Мб.

roiman
()

Если для себя, то можешь попробовать паковать в squashfs с большим размером блока. А если «запаковал и забыл», то PAQ.

boowai ★★★★
()

Djvu не приходил в голову? И при 300dpi lossless это уж чересщур имхо.

Такое ощущение, что целью является возможность протолкнуть архивную копию как оригинал)

Посмотрите, как ксерокс копирует – контраст в пол – и с такой копии можно ещё несколько раз сделать копию и всё будет читаемо.

jeuta ★★★★
()

Сильно зависит от объема. До 100 листов - одно. До 1000 другое, больше 10 000 - третье, больше миллиона - четвертое.

praseodim ★★★★★
()
Ответ на: комментарий от intelfx

Спасибо, не знал.

Забыл написать, и не успел исправить: все операции, для которых я пользовался pdftk, лет 10 назад я успешно проделывал над DJVU каким-то пакетом утилит, который был во всех дистрибутивах. Не помню название, что-то вроде dj-tools или dejavu-tools.

question4 ★★★★★
()
Ответ на: комментарий от jeuta

Djvu не приходил в голову?

С DjVu почти не имел дел, кроме чтения плохо отсканированных книг. Но его уже пару раз вспомнили в этом треде, надо бы ознакомиться детальнее.

Такое ощущение, что целью является возможность протолкнуть архивную копию как оригинал)

В таких случаях понадобился бы совет из первого комментария Сканирование документов для домашнего архива: выбор формата/кодека для хранения, параметров сканирования (комментарий)

Pravorskyi ★★★
() автор топика
Последнее исправление: Pravorskyi (всего исправлений: 1)
Ответ на: комментарий от praseodim

Больше миллиона — это уже промышленные масштабы.

А чем принципиально отличаются меньшие объемы?

Pravorskyi ★★★
() автор топика
Ответ на: комментарий от boowai

PAQ

Вроде, у целого семейства этих алгоритмов не только запаковка, но распаковка весьма долгая и затратная. Быстро прошерстить упакованные им документы не получится.

Pravorskyi ★★★
() автор топика
Последнее исправление: Pravorskyi (всего исправлений: 1)
Ответ на: комментарий от Pravorskyi

Например, если меньше 100 листов можно не париться вообще ни со сканированием, ни с хранением. Как получится, так и делать.

Если больше уже нужна какая-то организация и хотя бы примитивный каталог в виде таблицы. Предварительный подсчет перед сканированием и подсчет после.

Если больше 1000, особенно 10 000 уже можно подумать,чтобы стикеры с штрих-кодами наклеивать на подготовленные листы и потом отсканированные листы и по ним контролировать что получилось. То есть, хочу обратить внимание, что начиная с некоторых объемов реально проблемой становится контроль целостности и что не пропустил какие-то листы, не забыли их вписать, не перепутали.

Ну и сканер, если больше 10 000 (да фактически и меньше) точно нужен особенный, обычных дексктопно-домашних будет не достаточно. Я про потоковый документный с ультразвуковым контролем количества страниц, затянутых из лотка говорю.

В свое время, в начале нулевых занимался сканированием бумажного фонда одной организации. Отсканировали больше 3 миллионов листов.

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 3)

tiff или tga. Остальное полумеры

gutaper ★★★★★
()

У универе мне показали и научили DjVu. Он охрененный. От сканов в PDF с тех пор тошнит.

Однако он сложный и при неправильном использовании эффект не такой ошеломительный. Для винды есть готовые тулзы дающие хороший результат, а djvulibre набор утилит, которые надо в правильном порядке применять.

legolegs ★★★★★
()
Последнее исправление: legolegs (всего исправлений: 1)

В tiff же многостраничность из коробки. А одностраничные можно в любом формате без потерь.

Tigger ★★★★★
()
Ответ на: комментарий от Tigger

В tiff еще искаропки ебля с методами сжатия. Далеко не весь софт понимает упакованные тиффы, особенно лосслесс.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Проблемы софтописателей, не осиливших спецификации? Вроде. под линукс был xnview, понимающий все нормальные графические форматы.

Tigger ★★★★★
()
Ответ на: комментарий от Tigger

Когда работал в полиграфии, лет 20 назад. Tiff и был самый правильный стандарт для кроссплатформенного переноса между виндой, маком и аппаратными фотовыводящими имеджсеттерами.

Белка просто заблудилась.

С тех пор сам всегда самые нужные изображения храню в Tiff.

HIS
()
Последнее исправление: HIS (всего исправлений: 1)
Ответ на: комментарий от DNA_Seq

Далеко не весь софт понимает упакованные тиффы, особенно лосслесс.

За 20 лет никакого прогресса? Типографии?

question4 ★★★★★
()
Ответ на: комментарий от HIS

Вообще лослесс zip в tiff понимало практически всё лет 20 назад.

Фотошоп понимал, ИрфанВью понимал, МС Пэйнт не понимал, иностранные научные издательства не понимали (Elsevier и ещё что-то).

question4 ★★★★★
()
Ответ на: комментарий от question4

За 20 лет софт лишь деградировал. Особенно под Шиндус.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от HIS

Ну например упакованные тиффы (за исключением пожатых jpeg) не понимает ImageJ, а во многих областях (наука и тд) эта программа - стандарт.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от question4

Quark Express, Corel Draw, Page Maker, все адобовские продукты работающие с графикой, софт идущий к сканерам, множество просмотрщиков под виндовс. Всё работало с tiff как тогда так и сейчас. И сейчас всё больше нормального софта понимает tiff формат.

Всё для создания и просмотра документов в tiff было как тогда так и сейчас.

Вот djvu например не много кто поддерживает и сейчас как для создания так и для просмотра.

иностранные научные издательства не понимали

Очень интересно! А в каких форматах они принимали на печать? А?

HIS
()
Ответ на: комментарий от HIS

иностранные научные издательства не понимали

Очень интересно! А в каких форматах они принимали на печать? А?

Несжатый TIFF. Один раз было 3 попытки: PNG не приняли, сказали слать всё в TIFF; после чего сжатые Deflate TIFF тоже не поняли; несжатые TIFF поняли. В другой раз в правилах подачи было явно указано слать несжатые TIFF — это был уже 2003 или 2004 год.

По-моему, одно из них или оба называли желательным EPS.

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 1)
Ответ на: комментарий от question4

Несжатый TIFF.

Тоесть таки tiff.

EPS - Это адобовский стандарт.

HIS
()
Ответ на: комментарий от question4

На счёт EPS…

Примерно в 2000 году на наших лазерных принтерах не хватало памяти для вывода сложной картинки на плёнки для печати.

Нам дали адрес подрядчика и мы схватив «буквально» под мышки компы, ночью уже, с настроенными программами и проектами пофигачили к ним на их принтеры. Через Norton Commander по LPT порту загнали EPS файл и успели к сроку всё сделать.

HIS
()
Ответ на: комментарий от DNA_Seq

Ну например упакованные тиффы (за исключением пожатых jpeg)

JPG in TIFF не нужен.

Реально не нужен.

Разве что для просто хранить попочкифоточки.

HIS
()
Последнее исправление: HIS (всего исправлений: 2)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.