LINUX.ORG.RU
ФорумTalks

[parse pdf][brainstorm] нужен коллективный разум

 


0

0

Прошу помощи. Есть pdf, таких 172 штуки. Структура у всех более или менее одинаковая: на первой странице картинка, на второй - выходные данные (дата записи, состав исполнителей), на третьей - «треклист» с привязкой исполнителей к композициям. Дальше интересные сведения, которые мне не нужно вытаскивать.

Мне нужно каким-то способом вытащить данные об исполнителе из этих PDF и применить к файлам. Проблема в «вытащить». Пробовал pdftotext - на выходе банальная неразборчивая каша. Пробовал pdftohtml - то же самое, строки с разных страниц буклета получаются в одной куче и понять где чья строка я не смог. Пробовал pdf2html (это другой пакет) - на выходе вообще картинки. Пробовал парсить на перле (PDF::API2, CAM::PDF) - не получилось вытащить текст из файла, только что-то бинарное или вообще ошибки.

Порекомендуйте сильнодействующее средство для разбора этого pdf, пожалуйста.

Варианты, устраняющие необходимость парсинга этого pdf тоже подходят.

Пишу в talks потому что это вроде как и с линуксом-то не особо связано, я не уверен, стоит ли это в general постить.

★★

У меня это дело отлично показывает mc по клавише F3, и парсит он вроде как раз через pdftotext.

aix27249
()

Варианты, устраняющие необходимость парсинга этого pdf тоже подходят.


Найди на free-lance.ru человека, который растащит эти 172 файла руками

ArsenShnurkov
()
Ответ на: комментарий от ArsenShnurkov

>Найди на free-lance.ru человека, который растащит эти 172 файла руками

+1

Ну или сделать это самому ручками

Zhbert ★★★★★
()
Ответ на: комментарий от aix27249

У меня это дело отлично показывает mc по клавише F3, и парсит он вроде как раз через pdftotext.

третья страница выглядит так?

BWV 1 No. 1 No. 2 No. 3 No. 4 No. 5 No. 6

„Wie schön leuchtet der Morgenstern“ Coro: Recitativo (T):
Violoncello, Organo

BWV 3 1 2 3 4 5 6 7:39 1:09 4:40 0:59 6:56 1:36 No. 1 No. 2 No. 3 No. 4 No. 5 No. 6

„Ach Gott, wie manches Herzeleid“ Coro: Ach Gott, wie manches Herzeleid 13 14 15 16 17 18 5:30 2:53 6:38 1:16 7:47 0:42
name_no ★★
() автор топика
Ответ на: комментарий от vrsb

Скрипт в DCOP

dcop уже сдох, dbus на дворе, но за идею спасибо, посмотрю что там можно сделать.

name_no ★★
() автор топика
Ответ на: комментарий от WerNA

далее парсить ps если он внятный получится

невнятный ((( без текста совсем получился: MM4001-2.ps (12 MB)

name_no ★★
() автор топика

Вырезать 3-ю страницу pdftk и работать только с нею.

question4 ★★★★★
()

Найти обезьянку, которая сделает тебе это за красивые глазки руками, ну или как выше подсказали - за деньги на free-lance.ru

Dimanc ★★
()

отрендерить в картинку, вырезать по маске нужные части и пропустить через OCR

Yareg ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.