LINUX.ORG.RU

как бы отпарсить pdf в xml???


0

0

привет всем, может кто идею подкинет...

дело вот в чём: есть файл в pdf, нада переконвектировать его в xml , чтобы хмл выглядел примерно так:

<stop nam="Connewitz"> <day d="wt"> <azeit std="4" min="52"/> <azeit std="5" min="12"/> <azeit std="6" min="12,37,52"/> <azeit std="7-23" min="91,11,21,31,41,51"/> <azeit std="0" min="22"/> </day> <day d="sa"> <azeit std="4" min="56"/> </day> <day d="so"> <azeit std="4" min="56"/> </day> </stop>

сам пдф можно посмотреть вот тут:

http://www.lvb.de/uploads/lines/AFP_LI9_1_1017202_22.PDF

помогите пожалусто, куда мне копать? ...

Перемещено JB из Talks

★★

pdf2html потом через xslt в нужный тебе xml

ЗЫ ПДФ не видел =)

boombick ★★★★★
()

блин опять забыл про форматирование:

<stop nam="Connewitz">
<day d="wt">
<azeit std="4" min="52"/>
<azeit std="5" min="12"/>
<azeit std="6" min="12,37,52"/>
<azeit std="7-23" min="91,11,21,31,41,51"/>
<azeit std="0" min="22"/>
</day>

<day d="sa">
<azeit std="4" min="56"/>
</day>

<day d="so">
<azeit std="4" min="56"/>
</day>
</stop>

зы: пробовал, отконверировать просто pdf2xml но потом в нём сам чёрт ногу сломает. в общем очень надеюсь что ктонить подкинит стоющию идею =))

djung ★★
() автор топика

в html и регекспами или другими ухищирениями выковыривай данные, другого пути вроде как нет

Syncro ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.