чем разобрать odt?

1

1

ну чтоб на яве.

Apache ODFDOM не нравится тем, что он не все разбирает. например если есть нумерованный список, то апачий getTextContent берет и склеивает элементы списка без разделителей. при этом тот же libreoffice все открывает корректно.

и вообще она с 11-го года вроде как не обновляется..?

бороться с либой --- это конечно да, но я бы предпочел подоткнуть другую. хочу просто получить текст из документа.

Ссылка

←	А на чем бы сделать game loop для PyQT5?

как использовать библиотеку fpc-stl

→

Есть ли возможность установить требование наличия LibreOffice на ПК пользователя твоей софтины?

I-Love-Microsoft ★★★★★
(26.12.16 12:41:25 MSK)

Ответ на: комментарий от I-Love-Microsoft 26.12.16 12:41:25 MSK

ну вариант, да, но пока что-то не хочется... это бэкэнд.

Rastafarra ★★★★
(26.12.16 12:43:20 MSK) автор топика

Ответ на: комментарий от Rastafarra 26.12.16 12:43:20 MSK

У LibreOffice есть какая-то консольная «база»? Может libreoffice-core это и есть то самое минимальное, что можно дергать через их API?

I-Love-Microsoft ★★★★★
(26.12.16 12:56:21 MSK)

А в Tika что сейчас используется?

maxcom ★★★★★
(26.12.16 12:57:34 MSK)

Ссылка

http://www.odfkit.org/UsingOdfkit.html

conalex ★★★
(26.12.16 13:04:08 MSK)

Ссылка

поборол вот так:

    private static String getTextFromNode (Node node) {
        return
            IntStream
                .range(0, node.getChildNodes().getLength())
                .mapToObj((int idx) -> {
                    if (node.getChildNodes().getLength() > 1)
                        return getTextFromNode(node.getChildNodes().item(idx));
                    else
                        return node.getTextContent();
                })
                .collect(Collectors.joining(" "));
    }

Rastafarra ★★★★
(26.12.16 13:34:06 MSK) автор топика

Ответ на: комментарий от Rastafarra 26.12.16 13:34:06 MSK

В зависимости от того, что тебе нужно, и документы какой сложности ты анализируешь, есть ещё вариант разархивировать odt и напрямую разбирать нижележащий XML. У odt довольно понятная простым смертным структура (по крайней мере, в случае простых документов), и вытянуть текст не составит особого труда. Хочу, правда предупредить, что у него есть привычка оборачивать <elem>отдельные куски текста в дополнительные тэги</elem> без особых на то причин, поэтому тут нужно быть внимательным при разборе XML.

runtime ★★★★
(26.12.16 13:45:31 MSK)

Ответ на: комментарий от runtime 26.12.16 13:45:31 MSK

разархивировать odt и напрямую разбирать нижележащий XML

ну вот только этого мне и не хватало ))

Rastafarra ★★★★
(26.12.16 13:56:05 MSK) автор топика

Ответ на: комментарий от Rastafarra 26.12.16 13:56:05 MSK

Есть мнение, что это намного проще, чем подключать отдельную библиотеку по полному парсингу офисных форматов и до посинения разбираться, какой десяток из over9000 функций оттуда тебе действительно нужен.

А так - да, хозяин-барин.

anonymous
(26.12.16 15:10:51 MSK)

Ссылка

Ответ на: комментарий от Rastafarra 26.12.16 13:56:05 MSK

Дополню: Если задача строго стоит ограничиться ODT, парсить руками XML однозначно проще. Если же в перспективе надо будет добавить к понимаемым форматам docx, rtf или (чур меня, чур меня!) doc от Word 2003, то таки библиотека.

anonymous
(26.12.16 15:13:30 MSK)

Ответ на: комментарий от anonymous 26.12.16 15:13:30 MSK

парсить руками XML однозначно проще.

ну мое решение я показал выше, опустив всякие Files.readAllBytes.

покажи класс, распарси xml руками :)

Rastafarra ★★★★
(26.12.16 15:15:57 MSK) автор топика

Ссылка

Ответ на: комментарий от I-Love-Microsoft 26.12.16 12:56:21 MSK

Можно написать макрос на одном из встроенных в LibreOffice языков (как минимум это Basic и Python), который будет делать то, что тебе нужно. Макросы умеют:

1) Заставлять LibreOffice открывать/закрывать документы, получать доступ к содержимому документа.

2) Работать с внешними файлами. В смысле там есть команды для открытия файлов и чтения/записи туда.

Таким образом можно написать некий конвертер, который будет в автоматическом режиме грузить документ, выделять оттуда всё нужное и сохранять в текстовый файл в нужном тебе формате. Да, список файлов для обработки тоже можно прочитать из текстового файла. Также вроде как можно сделать так, чтобы при открытии документа автоматически запустился указанный макрос. Соответственно, задача сводится к тому, чтобы запустить LibreOffice, передав ему в качестве аргумента командной строки путь к файлу со встроенным твоим макросом, а потом забрать созданные им файлы.

Минусы - это не самый оптимальный вариант (придётся запускать целый офисный пакет) + нужны иксы.

KivApple ★★★★★
(26.12.16 15:16:32 MSK)

Ответ на: комментарий от KivApple 26.12.16 15:16:32 MSK

+ нужны иксы

Когда-то я пытался чето делать через скрипт на Python + LibreOffice (PyUno), вроде графические программы не запускались. Откуда инфа про иксы, headless оно не может?

I-Love-Microsoft ★★★★★
(26.12.16 15:19:52 MSK)

Ответ на: комментарий от Rastafarra 26.12.16 13:34:06 MSK

IntStream
node.getChildNodes().getLength() x2
node.getChildNodes() x3

Достижение открыто: «эталонный быдлокод»

Deleted
(26.12.16 15:29:52 MSK)

Ответ на: комментарий от KivApple 26.12.16 15:16:32 MSK

для извращенцев есть http://api.libreoffice.org/

Deleted
(26.12.16 15:31:51 MSK)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 26.12.16 15:19:52 MSK

Я не знаю. Я просто предложил вариант вообще использовать встроенный макроязык LibreOffice.

KivApple ★★★★★
(26.12.16 15:42:14 MSK)

Ссылка

Ответ на: комментарий от Deleted 26.12.16 15:29:52 MSK

    private static String getTextFromNode (Node node) {
        NodeList childs = node.getChildNodes();
        Integer childCount = childs.getLength();
        return
            IntStream
                .range(0, childCount)
                .mapToObj((int idx) -> {
                    if (childCount > 1)
                        return getTextFromNode(childs.item(idx));
                    else
                        return node.getTextContent();
                })
                .collect(Collectors.joining(" "));
    }

пусть мне стало стыдно :)

Rastafarra ★★★★
(26.12.16 15:45:00 MSK) автор топика
Последнее исправление: Rastafarra 26.12.16 15:52:17 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Deleted 26.12.16 15:29:52 MSK

IntStream

а чем плох?

Rastafarra ★★★★
(26.12.16 15:59:20 MSK) автор топика

Ответ на: комментарий от Rastafarra 26.12.16 15:59:20 MSK

бритвой оккама, у тебя банальный цикл, который даже не нужен если childCount == 1, а ты еще суешь if унутыль лямбды, прямо мастер обфускации.

Стримы худо-бедно имеет смысл юзать когда у тебя удобно использовать ссылки функции:

return
            IntStream
                .range(0, childCount)
                .mapToObj(childs::item))
                .map(this::getTextFromNode)   
                .collect(Collectors.joining(" "));

но тогда надо вынести if, а если просто использовать for(int i = 0; ... - то оно будет еще и понятнее, и со временем ты дойдешь до мысли, что можно использовать StringBuilder предавая его в getTextFromNode - что на больших документах даст заметную экономию. Ну и потом может потребуется скипать пустые строки и т.п.

Deleted
(26.12.16 16:30:35 MSK)
Последнее исправление: Deleted 26.12.16 16:31:36 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	А на чем бы сделать game loop для PyQT5?

Development

как использовать библиотеку fpc-stl

→

Похожие темы