LINUX.ORG.RU
решено ФорумTalks

Оцифровка книги для себя

 


1

3

Есть несколько бумажных книг большого размера, которые хочется почитать в общественном транспорте, но не хочется таскать их с собой. Возникла мысль делать фото страниц 20-30, делать из них pdf/djvu и читать на планшете. Чем автоматизировать обработку таких фотостраниц? Натравить на директорию с картинками и в автоматическом режиме выровнять страницу, обрезать края, сделать изображение более контрастным и поместить всё в pdf/djvu?

imagemagick , наверное, подойдёт. Хотя по мне, так достаточно просто отсканировать.

Sadler ★★★
()

в автоматическом режиме выровнять страницу

А разве есть тулза или библиотека которая это умеет?

А так да, imagemgic or graphicsmagik. И pdf для сканов сосет! Лучше djvu он жмет круче. Я, после вменяемого и не фанатично процессинга сканов, зажимал 200 страниц в менее чем 2М. Если бы небыло там фоток, то вышло бы еще меньше.

AF ★★★
()
Последнее исправление: AF (всего исправлений: 1)

Чем автоматизировать обработку таких фотостраниц?

ImageMagic и скриптик a la

for file in `ls -1`
do
    c44 $file
    echo "File $file processed"
done
echo -e "Linking all... \c"
djvm -c book.djview *.djvu
echo "Done!"
rm *.djvu
mv book.djview book.djvu

А еще, если качество картинки хорошее, можно натравить на каждую страницу cuneiform. Вот, например, таким скриптиком я pdf-ки распознаю:

if [ $# == 0 ]; then
    echo -e "\nUsage: $(basename $0) filename.pdf,\n\tneeds some space for temporary ppm-files,\n\tsaves results to file filename.txt\n"
    exit -1
fi

NAME=$(bsnm $1)

# 1. Преобразуем pdf в ppm'ы
echo -e "\nConvert pdf to a lot of ppms"
pdftoppm $1 $NAME

# 2. Распознаем каждый рисунок
echo -e "\nRecognize every file\n"
for PPM in $(ls -1 ${NAME}-*ppm)
do
    echo -n "$PPM .. "
    cuneiform -l ruseng -f smarttext ${PPM} -o ${PPM}.txt
    echo "done!"
done

# 3. Собираем все вместе
rm -f ${NAME}.txt
cat $(ls -1 ${NAME}-*txt) > ${NAME}.txt

# 4. Подчищаем мусор
echo -n "Ready, cleaning ..."

rm -f ${NAME}-*.txt ${NAME}-*.ppm

echo "Done!"

Eddy_Em ☆☆☆☆☆
()
Последнее исправление: Eddy_Em (всего исправлений: 1)

Натравить на директорию с картинками и в автоматическом режиме выровнять страницу, обрезать края, сделать изображение более контрастным

Scan Tailor

насчет автомата не уверен но прога как раз для работы со сканами книг, результаты отличные

и поместить всё в pdf/djvu?

это не может, но решается простым:

convert *.JPG book.pdf
Sith ★★★★★
()
Ответ на: комментарий от Sith
convert *.JPG book.pdf

И получишь не двухмегабайтную книжечку, а двухгигабайтную…

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от pacify

Кромсатор

Древняя дельфиподелка. Есть же ScanTailor.

h31 ★★★★
()
Ответ на: комментарий от Sith

convert *.JPG book.pdf

И если у тебя /tmp в tmpfs, то система быстро, решительно уходит в своп.

Лучше сканировать в tiff, затем обработать ScanTailor, затем:

tiffcp *.tiff multipage.tiff
tiff2pdf multipage.tiff multipage.pdf
Ну это если OCR ненужен.

Kosyak ★★★★
()
Ответ на: комментарий от Kosyak

Лучше сканировать в tiff, затем обработать ScanTailor,

я и говорил про ScanTailor, собственно, что интересовало топикстартера

затем:

это был пример, как объединять в pdf после обработки

Sith ★★★★★
()

Scantailor буду глядеть. Спасибо.

Unnamed_Hero ★★★
() автор топика

Чем автоматизировать обработку таких фотостраниц? Натравить на директорию с картинками и в автоматическом режиме выровнять страницу, обрезать края, сделать изображение более контрастным и поместить всё в pdf/djvu?

unpaper. А, нет, gscan2pdf, это оно использует внутри unpaper.

i-rinat ★★★★★
()
Последнее исправление: i-rinat (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.