Сообщения LittleBin

Скачать сканы в обход хитрого вьюера с зумифаем

Получил задание выкачать эти сканы, но не сумел найти выхода на картинки с высоким разрешением. Подскажите, пожалуйста, если сталкивались с таким:

https://web.nli.org.il/sites/NLI/English/digitallibrary/pages/viewer.aspx?&presentorid=MANUSCRIPTS&docid=PNX_MANUSCRIPTS000086226-1

—

LittleBin
(08.04.20 12:32:44 MSK)

5 комментариев

Скачать сканы книги в обход вьюера (кеширующего нарезку сканов)

download

Не могли бы вы помочь скачать эту книгу? --

http://www.bl.uk/manuscripts/Viewer.aspx?ref=harley_ms_5786_fs001v

Обычно в подобных случаях я смотрю адреса кешированных картинок, но в этом случае я в кеше вижу нарезку страниц квадратами. Не знаю, как заполучить линки, ведущие на сканы страниц.

LittleBin
(15.02.17 19:48:12 MSK)

8 комментариев

Автоматизированно сохранить картинки с web-страницы

download, pic

На этой странице размещено 45 картинок (диафильм) — предупреждение: при загрузке страницы браузер может притормозить на 2-3 секунды --

https://ria.ru/society/20170104/1485150302.html

Мне нужно было их скачать, и я с удивлением обнаружил, что не могу этого сделать никаким способом, кроме как вручную. Вручную я их одну за другой сохранил.

Но м.б. кто-то подскажет, как можно в подобных случаях сохранить автоматизированно, в bash'e?

URL картинок, кажется, постоянные, но в html-коде страницы их нет. Обычные приемы с curl | grep споткнулись об это.

LittleBin
(05.01.17 00:10:29 MSK)

11 комментариев

Скрипт pdfocr на Ruby : извлечь команду соединения картинки и текста из кода?

ruby

В скрипте pdfocr на Руби есть две проблемы: (1) у распознанного pdf’a размер безумно больше, чем у входящего; (2) нет опции соединения языков для tesseract, вроде rus+eng. В связи с этим его использование затруднено, и хочется сделать всё то же, что делает он, но самому и полноценно. Основной вопрос:

Какой командой можно объединить в pdf распознаваемую скан-картинку и текстовый файл-вывод tesseract так, чтобы в объединенном pdf’e собственно текст накладывался на текст картинки, и его можно было выделять и копировать?

Знатоки Руби, помогите, пожалуйста, извлечь понимание этого момента из кода скрипта. Код скрипта: https://github.com/gkovacs/pdfocr

LittleBin
(28.07.16 14:28:43 MSK)

Скачать фильм с Youtube (youtube-dl, FlashGot, savefrom.net не сработали)

download, youtube

Как скачать этот фильм? https://www.youtube.com/watch?v=yZfe6QUJihw

Обычно применяемые способы скачивания, т.е. youtube-dl и FlashGot, а также savefrom.net не сработали.

LittleBin
(06.07.16 17:28:54 MSK)

28 комментариев

Научите скачивать книги в обход онлайнового вьюера

download

http://elib.lib.rsuh.ru/elib/000009797

LittleBin
(08.05.16 11:24:10 MSK)

11 комментариев

Синхронизация данных с rsync (именно rsync) на бесплатный сервер

rsync, синхронизация

Считаю, что все программы-клиенты – бэкдоры, устал от них, удалил все и хочу настроить классическую синхронизацию данных на сервер и обратно с помощью rsync. Но у меня нет своего сервера. Поэтому вопрос, работает ли кто-нибудь с помощью rsync (именно rsync!) с такими серверами как ГуглДрайв или ЯндексДиск. Информацию (чтобы именно про rsync) искал, но не нашел, если кто подскажет или поделится опытом, буду благодарен.

LittleBin
(22.04.16 20:57:29 MSK)

5 комментариев

Google Drive : Огромное количество файлов. Как скачать?

curl, download, files, google drive, wget

Получил на свой гуглодрайв огромное количество файлов в разных папках, общий объём десятки терабайт. Их нужно скачать порциями и перекинуть на внешние харды. Получалось ли у кого-нибудь скачивать с гуглодрайва с помощью wget или curl?

LittleBin
(12.03.16 15:24:46 MSK)

6 комментариев

Копирование многостраничного материала скриншотами?

"...скоро издательства перейдут на системы типа ReadCube, которые не позволят так легко выкачивать контент, как это можно сделать сейчас. ReadCube позволяет делать такие маразматичные вещи, как сдавать статью в аренду, например. 24 часа за шесть долларов. И главное — статьи нельзя будет скачивать. Точнее, скачать можно будет всё что угодно, но это будет технически намного сложнее..."

http://www.furfur.me/furfur/freedom/freedom/216751-sci-hub

Сказанное породило вопрос: а есть ли прога, которая может элегантно отскриншотить статью «сданную в аренду»?

LittleBin
(03.03.16 22:17:19 MSK)

22 комментария

Есть ли «консольный Scan Tailor»? Чтоб делал ч-б по порогу пакетом?

black, images, scan, white

subj.

LittleBin
(17.02.16 22:48:28 MSK)

4 комментария

Рекурсивная замена пробелов (и пр.) в именах файлов ?

filename, rename, sed

for file in *; do mv "$file" `echo $file | sed 's/[^.[:alnum:]]/_/g' | awk '{ print tolower($0) }'`; done

Как это сделать рекурсивно по всему /media/me/hard/ ?

LittleBin
(24.11.15 13:49:38 MSK)

34 комментария

Часто используемые в bash-скриптах переменные отдельным файлом?

bash, script, variables

При написании скриптов я часто начинаю с перечисления одних и тех же простых переменных, типа abc=«123». Как мне сделать, чтобы в одном файле были перечислены все используемые переменные, а в каждом новом bash-скрипте указывать "переменные бери из файла vars"?

LittleBin
(31.10.15 13:03:46 MSK)

6 комментариев

rsync -rthpq : потеря сим. ссылок и прав/исполняемости скриптов

backup, rsync, script, symbolic link, права

Обычно делал синхронизацию/бэкап дом. раздела так:

rsync -rthpq --delete /home/ /где-примонтирован-диск/home/

А восстановив с копии некоторую часть, заметил, что во-первых, нет сим. ссылок, и во-вторых, не работают скрипты («Нет доступа»). Проблемы со ссылками и скриптами решил, но не понял, что делал не так. Подскажите, пож., как делать синхронизацию с помощью rsync, чтобы всё сохранялось и всё восстанавливалось без потери прав и исполняемости.

LittleBin
(26.10.15 14:05:23 MSK)

2 комментария

Поиск части текста не в строке, а через строки - как?

grep, text, поиск, строки

$ echo "Мой дядя самых честных правил,
> Когда не в шутку занемог,
> Он уважать себя заставил
> И лучше выдумать не мог." > uncle
$ egrep 'дядя.+правил' uncle
Мой дядя самых честных правил,
$

А как найти 'дядя.+заставил' ?

LittleBin
(19.10.15 00:40:21 MSK)

4 комментария

re.UNICODE : how to? (Python)

python, regexp, unicode

Цитата:

\w
If UNICODE is set, this will match anything other than [0-9_] plus characters classified as not alphanumeric in the Unicode character properties database.

Как установить этот параметр: UNICODE, импортируя модуль re?

PS: Если у вас под рукой ссылка на толковое руководство по анализу текста средствами Питона, поделитесь, пожалуйста.

LittleBin
(18.10.15 12:48:16 MSK)

3 комментария

awk : print filename ?

awk, filename, поиск

Известно, что

egrep keyword *

в начале каждой строки с keyword покажет имя файла, из которого эта строка.

Есть причины, по которым я использую awk вместо egrep.
Но не знаю как сделать, чтобы awk так же выводил имя файла перед строкой с keyword.
Подскажите, пожалуйста.

LittleBin
(08.10.15 15:24:15 MSK)

2 комментария

Порядковые номера в именах файлов

filename, цикл

Есть много файлов. Часть из них имеет имена:

...
015701_что-то_еще_про_содержание_файла.расширение
015702_что-то_еще_про_содержание_файла.расширение
015703_что-то_еще_про_содержание_файла.расширение

А другая часть — с именами без порядковых номеров.
Технологически нужно, чтобы все остальные файлы приобрели имена:

015704_уже_данное_ранее_имя.расширение
015705_уже_данное_ранее_имя.расширение
015706_уже_данное_ранее_имя.расширение

и т.д. То есть к каждому имени спереди добавить порядковый номер, начиная с 015704.

Как это автоматизировать простейшим способом?

LittleBin
(07.10.15 20:00:29 MSK)

10 комментариев

Как указать wget, что скачивать нужно только файлы у которых в имени есть сочетание букв prt ?

filename, wget

subj., pls

LittleBin
(29.09.15 09:14:46 MSK)

2 комментария

Обработка нумерованных файлов: с 1 по 15, а не с 10 по 15 и затем с 1 по 9 ?

filename, listings

Есть несколько файлов с именами a1 a2 a3 ... a15 и при любой конверсии обрабатываются сначала a10-a15, а затем a1-a9. Как задать последовательность обработки с 1-го по 15-й?

LittleBin
(05.09.15 12:28:02 MSK)

10 комментариев