Java, чтение Excel-файлов - посоветуйте библу

0

2

Сейчас использую


        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.16</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.16</version>
        </dependency>

вот такой класс-читальщик, который нашел на просторах инета

import org.apache.poi.ss.usermodel.*;

import java.io.InputStream;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

/**
 * Created by bvn13 on 01.07.2017.
 */
public class ExcelReader {

    public static List<List<String>> readSpreadSheet(InputStream inputStream, Integer sheetNum) {
        Workbook workBook = null;
        try {
            workBook = WorkbookFactory.create(inputStream);
        } catch (Exception e) {
            throw new RuntimeException(e);
        }
        Sheet sheet = workBook.getSheetAt(sheetNum);
        List<List<String>> rowHolder = new ArrayList<List<String>>();
        int cellNum = sheet.getRow(1).getLastCellNum();

        for (int i = 0; i <= sheet.getLastRowNum(); i++) {
            Row row = sheet.getRow(i);
            List<String> cellHolder = new ArrayList<String>();

            for (int j = 0; j < row.getLastCellNum(); j++) {
                Cell cell = row.getCell(j);
                String cellValue = parseCellValue(workBook, cell);
                cellHolder.add(cellValue);
            }

            //add empty cells to the end if required
            while (cellHolder.size() < cellNum) {
                cellHolder.add(null);
            }
            rowHolder.add(cellHolder);
        }
        return rowHolder;
    }

    private static String parseCellValue(Workbook workBook, Cell cell) {
        FormulaEvaluator evaluator = workBook.getCreationHelper().createFormulaEvaluator();
        String cellValue = null;
        if (cell != null) {
            switch (cell.getCellTypeEnum()) {
                case STRING:
                    cellValue = cell.getRichStringCellValue().getString();
                    break;
                case NUMERIC:
                    if (DateUtil.isCellDateFormatted(cell)) {
                        cellValue = cell.getDateCellValue().toString();
                    } else {
                        cellValue = new Double(cell.getNumericCellValue()).toString();
                    }
                    break;
                case BOOLEAN:
                    cellValue = new Boolean(cell.getBooleanCellValue()).toString();
                    break;
                case FORMULA:
                    cellValue = evaluator.evaluate(cell).formatAsString();
                    break;
            }
        }
        return cellValue;
    }

    public static List<List<String>> readSpreadSheetWOnull(InputStream inputStream, Integer sheetNumber) {
        Workbook workBook = null;
        try {
            workBook = WorkbookFactory.create(inputStream);
            Sheet sheet = workBook.getSheetAt(sheetNumber);

            Iterator<Row> rowIter = sheet.rowIterator();

            List<List<String>> rowHolder = new ArrayList<List<String>>();
            while (rowIter.hasNext()) {
                Row row = (Row) rowIter.next();
                Iterator<Cell> cellIter = row.cellIterator();

                List<String> cellHolder = new ArrayList<String>();
                while (cellIter.hasNext()) {
                    Cell cell = (Cell) cellIter.next();
                    String cellValue = parseCellValue(workBook, cell);
                    cellHolder.add(cellValue);
                }
                rowHolder.add(cellHolder);
            }
            return rowHolder;
        } catch (Exception e) {
            throw new RuntimeException(e);
        }
    }

    public static List<List<String>> readSpreadSheetWOnull(InputStream inputStream) {
        return readSpreadSheetWOnull(inputStream, 0);
    }
    public static List<List<String>> readSpreadSheet(InputStream inputStream) {
        return readSpreadSheet(inputStream, 0);
    }
}

Если подсунуть 10-меговый файл, то даже на моем i7 8Gb вылетает с ошибкой:

Exception in thread "ru.bvn13.priceprocessor.workers.PriceLoaderFromFileWorker" java.lang.OutOfMemoryError: GC overhead limit exceeded
	at com.sun.org.apache.xerces.internal.dom.DeferredDocumentImpl.getNodeObject(DeferredDocumentImpl.java:1017)
	at com.sun.org.apache.xerces.internal.dom.DeferredDocumentImpl.synchronizeChildren(DeferredDocumentImpl.java:1755)
	at com.sun.org.apache.xerces.internal.dom.DeferredElementNSImpl.synchronizeChildren(DeferredElementNSImpl.java:158)
	at com.sun.org.apache.xerces.internal.dom.ParentNode.getFirstChild(ParentNode.java:229)
	at org.apache.xmlbeans.impl.store.Locale.loadNodeChildren(Locale.java:1402)
	at org.apache.xmlbeans.impl.store.Locale.loadNode(Locale.java:1445)
	at org.apache.xmlbeans.impl.store.Locale.loadNodeChildren(Locale.java:1403)
	at org.apache.xmlbeans.impl.store.Locale.loadNode(Locale.java:1445)
	at org.apache.xmlbeans.impl.store.Locale.loadNodeChildren(Locale.java:1403)
	at org.apache.xmlbeans.impl.store.Locale.loadNode(Locale.java:1445)
	at org.apache.xmlbeans.impl.store.Locale.loadNodeChildren(Locale.java:1403)
	at org.apache.xmlbeans.impl.store.Locale.loadNode(Locale.java:1445)
	at org.apache.xmlbeans.impl.store.Locale.parseToXmlObject(Locale.java:1385)
	at org.apache.xmlbeans.impl.store.Locale.parseToXmlObject(Locale.java:1370)
	at org.apache.xmlbeans.impl.schema.SchemaTypeLoaderBase.parse(SchemaTypeLoaderBase.java:370)
	at org.apache.poi.POIXMLTypeLoader.parse(POIXMLTypeLoader.java:144)
	at org.openxmlformats.schemas.spreadsheetml.x2006.main.WorksheetDocument$Factory.parse(Unknown Source)
	at org.apache.poi.xssf.usermodel.XSSFSheet.read(XSSFSheet.java:183)
	at org.apache.poi.xssf.usermodel.XSSFSheet.onDocumentRead(XSSFSheet.java:175)
	at org.apache.poi.xssf.usermodel.XSSFWorkbook.parseSheet(XSSFWorkbook.java:438)
	at org.apache.poi.xssf.usermodel.XSSFWorkbook.onDocumentRead(XSSFWorkbook.java:403)
	at org.apache.poi.POIXMLDocument.load(POIXMLDocument.java:190)
	at org.apache.poi.xssf.usermodel.XSSFWorkbook.<init>(XSSFWorkbook.java:266)
	at org.apache.poi.ss.usermodel.WorkbookFactory.create(WorkbookFactory.java:185)
	at org.apache.poi.ss.usermodel.WorkbookFactory.create(WorkbookFactory.java:144)
	at ru.bvn13.priceprocessor.utils.ExcelReader.readSpreadSheet(ExcelReader.java:18)
	at ru.bvn13.priceprocessor.utils.ExcelReader.readSpreadSheet(ExcelReader.java:102)
	at ru.bvn13.priceprocessor.workers.PriceLoaderFromFileWorker.readFileNewExcelFormat(PriceLoaderFromFileWorker.java:409)
	at ru.bvn13.priceprocessor.workers.PriceLoaderFromFileWorker.loadFile(PriceLoaderFromFileWorker.java:294)
	at ru.bvn13.priceprocessor.workers.PriceLoaderFromFileWorker.startLoadingFile(PriceLoaderFromFileWorker.java:206)
	at ru.bvn13.priceprocessor.workers.PriceLoaderFromFileWorker.job(PriceLoaderFromFileWorker.java:96)
	at ru.bvn13.priceprocessor.workers.AbstractWorker.run(AbstractWorker.java:52)

А есть что-то менее прожорливое, чтобы читать?

Ссылка

← Javascript перемещение dom элементов

Как эффективно сохранить в память несколько элементов по различным адресам. →

← 1 2 →

А ты жаве дал эту память?

~~Legioner~~ ★★★★★
(22.08.17 13:11:29 MSK)

Ссылка

Команды запуска покажи, сколько памяти жабе выдал?

ya-betmen ★★★★★
(22.08.17 13:15:11 MSK)

Откуда запускаешь? Из IDE, из maven, упакованный jar командой java?

Легче всего быстро посмотреть, сколько памяти использует JVM, через jconsole.

BattleCoder ★★★★★
(22.08.17 13:33:49 MSK)

Ответ на: комментарий от ya-betmen 22.08.17 13:15:11 MSK

А если заранее неизвестно, сколько памяти потребуется? Пользователь может захотеть открыть и 1 мегабайт и 15-ть мегабайт файлы. При том что оперативки допустим 5-кратный запас. Сейчас на кону остатки моего уважения к Java как к платформе.

I-Love-Microsoft ★★★★★
(22.08.17 13:34:38 MSK)
Последнее исправление: I-Love-Microsoft 22.08.17 13:35:16 MSK (всего исправлений: 1)

Ответ на: комментарий от I-Love-Microsoft 22.08.17 13:34:38 MSK

Вообще размер хипа ограничивается с помощью Xmx, если его не указывать то есть дефолтное поведение, которое зависит от server/client mode, от объема свободной памяти и от JVM из которой все это добро запущено.
Обычно всякие мавены и прочий сброд указывает этот флажок при запуске кода.

Deleted
(22.08.17 13:41:58 MSK)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 22.08.17 13:34:38 MSK

Ты не понял, либо человек вписал в команду что-то совсем миллипизерное либо у него код кривой, прежде чем разбираться со вторым следует исключить первое. Судя по ошибке гц не хватает памяти чтобы мусор подбирать.

ya-betmen ★★★★★
(22.08.17 13:48:48 MSK)

Ответ на: комментарий от BattleCoder 22.08.17 13:33:49 MSK

Сейчас из IDEA. Но -Xmx1024m тоже пробовал.

cast ~~Legioner~~, ya-betmen

bvn13 ★★★★★
(22.08.17 14:05:04 MSK) автор топика

Ответ на: комментарий от ya-betmen 22.08.17 13:48:48 MSK

ГЦ всё хватает, просто делает это очень долго - дольше чем разрешено. Это не обязательно нехватка памяти, может быть другой тип ГЦ более эффективен при таком профиле нагрузки.

FeyFre ★★★★
(22.08.17 14:06:21 MSK)

Ответ на: комментарий от ya-betmen 22.08.17 13:48:48 MSK

код я брал отсюда. Ничего сверхестественного не писал.

bvn13 ★★★★★
(22.08.17 14:08:17 MSK) автор топика

Ссылка

Ответ на: комментарий от FeyFre 22.08.17 14:06:21 MSK

как бы разобраться? какой другой тип ГЦ?

bvn13 ★★★★★
(22.08.17 14:08:50 MSK) автор топика

Ответ на: комментарий от bvn13 22.08.17 14:05:04 MSK

Почему 1024m, если у тебя 8 гигабайтов? Для начала попробуй 6144m, чтобы убедиться, что оно вообще заработает, потом уменьшай, параллельно мониторя потребление хипа (например через jconsole), пока не добьёшься желаемого баланса между потреблением памяти и нагрузкой на GC.

~~Legioner~~ ★★★★★
(22.08.17 14:24:25 MSK)

Ссылка

Ответ на: комментарий от FeyFre 22.08.17 14:06:21 MSK

начал грузиться с параметрами JVM: -Xmx4096m -XX:+UseG1GC. Но это я должен каждый раз угадывать? Нельзя как-то универсально чтоб?

bvn13 ★★★★★
(22.08.17 14:24:50 MSK) автор топика

Ссылка

Ответ на: комментарий от bvn13 22.08.17 14:08:50 MSK

Тут есть почитать: тыц
Ваш случай может быть тыц , маловероятно правда. Нужно смотреть логи ГЦ.

FeyFre ★★★★
(22.08.17 14:24:57 MSK)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 22.08.17 13:34:38 MSK

А если заранее неизвестно, сколько памяти потребуется? Пользователь может захотеть открыть и 1 мегабайт и 15-ть мегабайт файлы.

Максимальное ограничение памяти это столько, больше чего жава не скушает. Это не значит, что если ты укажешь -Xmx=64g, что она автоматом захавает 64 гига. Она начнёт с 16 МБ по умолчанию, насколько я помню. Когда посчитает, что этого мало — попросит у ОС новой памяти и увеличит хип. Вот что жава не умеет делать, к сожалению, так это отдавать память назад, даже если пик потребления уже прошёл, это действительно минус жавы, хотя может уже научилась.

~~Legioner~~ ★★★★★
(22.08.17 14:27:59 MSK)

Ответ на: комментарий от Legioner 22.08.17 14:27:59 MSK

на винде норм отдала, судя по диспетчеру задач

bvn13 ★★★★★
(22.08.17 14:29:17 MSK) автор топика

Ответ на: комментарий от bvn13 22.08.17 14:29:17 MSK

При работающем процессе? Ну хорошо, если так.

~~Legioner~~ ★★★★★
(22.08.17 14:30:04 MSK)

Ответ на: комментарий от Legioner 22.08.17 14:30:04 MSK

странно. это в момент ошибки ГЦ память отдалась. сейчас, без ошибки, - память остается у JVM

bvn13 ★★★★★
(22.08.17 14:31:34 MSK) автор топика

Ссылка

Ответ на: комментарий от bvn13 22.08.17 14:29:17 MSK

а в/на пингвине? но... 4 гектара чтоб открыть xls, не шутка ли

I-Love-Microsoft ★★★★★
(22.08.17 14:32:28 MSK)
Последнее исправление: I-Love-Microsoft 22.08.17 14:33:39 MSK (всего исправлений: 1)

Ответ на: комментарий от I-Love-Microsoft 22.08.17 14:32:28 MSK

Сгенерь HTML-таблицу на 10 мегабайов зазипованного HTML и открой её в браузере, потом расскажи, сколько он сожрёт.

~~Legioner~~ ★★★★★
(22.08.17 14:36:41 MSK)

А есть что-то менее прожорливое, чтобы читать?

Ещё посмотри сюда, если хочешь с минимумом памяти обрабатывать.

~~Legioner~~ ★★★★★
(22.08.17 14:37:15 MSK)

Ответ на: комментарий от Legioner 22.08.17 14:37:15 MSK

там только для записи же? я ничего не записываю

bvn13 ★★★★★
(22.08.17 14:44:20 MSK) автор топика

Ссылка

Для XLS/XLSX в POI есть поточный парсер, который не разбирает весь документ в память. Используй его, потому как xmlbeans очень неоптимален по памяти.

maxcom ★★★★★
(22.08.17 15:00:59 MSK)
Последнее исправление: maxcom 22.08.17 15:01:08 MSK (всего исправлений: 1)

Ответ на: комментарий от Legioner 22.08.17 14:36:41 MSK

засчитано

хотя... офисная программа неужто столько же скушает, как и жабная открывашка xls?

I-Love-Microsoft ★★★★★
(22.08.17 15:13:40 MSK)
Последнее исправление: I-Love-Microsoft 22.08.17 15:15:04 MSK (всего исправлений: 1)

Ответ на: комментарий от maxcom 22.08.17 15:00:59 MSK

какой класс? есть примеры?

bvn13 ★★★★★
(22.08.17 15:24:04 MSK) автор топика

Ответ на: комментарий от Legioner 22.08.17 14:37:15 MSK

я сейчас смотрю https://github.com/monitorjbl/excel-streaming-reader

Вроде как обертка над apache poi. Но блин! Оно не может мой файл прочитать. Видит какую-то несуществующую колонку, читает из нее несуществующий текст, парсит его как Integer, и валится.

https://i.imgur.com/Ln8QAOE.png

bvn13 ★★★★★
(22.08.17 16:31:20 MSK) автор топика

Ответ на: комментарий от bvn13 22.08.17 16:31:20 MSK

У тебя там случаем не «Число сохранено как текст» в ячейках с ошибкой?

Radjah ★★★★★
(22.08.17 16:46:06 MSK)

Ответ на: комментарий от Radjah 22.08.17 16:46:06 MSK

да вообще странная ситуация. если оставляю первые строк 100, то все норм грузится. Если весь файл - ошибка. Есть возможность, протестить?

bvn13 ★★★★★
(22.08.17 16:48:03 MSK) автор топика

10-меговый файл в xlsx это вообще то дофига. это, наверно, где-то 50-70 метровый sheet1.xml файл с данными. Формат экселя не предназначен для потоковой работы - тоесть для работы с таким объёмом нужно много памяти. тем более из-под java.

vtVitus ★★★★★
(22.08.17 16:54:17 MSK)

Ссылка

Ответ на: комментарий от bvn13 22.08.17 16:48:03 MSK

посмотри на row и column в экселе на которой валится. там всегда всё понятно.

vtVitus ★★★★★
(22.08.17 16:56:29 MSK)

Ответ на: комментарий от vtVitus 22.08.17 16:56:29 MSK

смотрю. в этом column не те данные, что в отладчике.

bvn13 ★★★★★
(22.08.17 17:30:27 MSK) автор топика

Ответ на: комментарий от Legioner 22.08.17 14:36:41 MSK

Блин проглядел <artifactId>poi-ooxml</artifactId>

ya-betmen ★★★★★
(22.08.17 17:52:08 MSK)

Ссылка

Ответ на: комментарий от bvn13 22.08.17 17:30:27 MSK

хз. если смотреть на картинку с ошибкой. то вроде как в колонке F 1 с пробелом на конце.

vtVitus ★★★★★
(22.08.17 17:52:22 MSK)

Ответ на: комментарий от bvn13 22.08.17 17:30:27 MSK

У тебя там случайно вложений типа картинок/ссылок/прочего не имеется? А то недавно пришлось разбирать сложный хлсх через пои, так там довольно нетривально сопоставлять картинки с ячейками в которых они лежат и появляются виртуальные колонки с ид этих картинок.

ya-betmen ★★★★★
(22.08.17 17:55:32 MSK)

Ответ на: комментарий от bvn13 22.08.17 15:24:04 MSK

какой класс? есть примеры?

https://github.com/apache/tika/blob/master/tika-parsers/src/main/java/org/apa...

maxcom ★★★★★
(22.08.17 17:56:44 MSK)

Ссылка

10-меговый файл
-Xmx4096m

Ржал, как конь.

crutch_master ★★★★★
(22.08.17 17:57:15 MSK)

Ссылка

Ответ на: комментарий от ya-betmen 22.08.17 17:55:32 MSK

нет, плайн текст

bvn13 ★★★★★
(22.08.17 18:04:39 MSK) автор топика

Ответ на: комментарий от vtVitus 22.08.17 17:52:22 MSK

вот так еще могу показать. https://i.imgur.com/gxBslPN.png

Видишь, что колонка по порядку - 4? А ее нет.

bvn13 ★★★★★
(22.08.17 18:24:28 MSK) автор топика

Ответ на: комментарий от bvn13 22.08.17 18:04:39 MSK

Просто переведи в csv, да напиши парсер.

crutch_master ★★★★★
(23.08.17 10:49:54 MSK)
Последнее исправление: crutch_master 23.08.17 10:51:08 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от bvn13 22.08.17 18:24:28 MSK

нет не вижу. валится на первом row, а ты смотришь 4. Ошибка кстати понятная - у тебя все данные текстовые, но poi считает что у тебя в 4 и 7 колонке числовые данные. Таких ошибок в poi было тонны когда формат 2007 вводили. В твоём случае можно тупо везде проставлять формат строки аля cell.setCellType(Cell.CELL_TYPE_STRING) перед считыванием.

Ну и багу можно запостить с примером xlsx.

vtVitus ★★★★★
(23.08.17 11:05:32 MSK)
Последнее исправление: vtVitus 23.08.17 11:12:40 MSK (всего исправлений: 1)

Ответ на: комментарий от vtVitus 23.08.17 11:05:32 MSK

Если использовать потоковое чтение, то ошибка возникает в момент for (Row row : sheet) {. Как на это можно повлиять?

bvn13 ★★★★★
(23.08.17 11:18:12 MSK) автор топика

Ответ на: комментарий от bvn13 23.08.17 11:18:12 MSK

хз. потоковая работа с xlxs от лукавого. хочется потоков используй csv. мой совет остаётся прежним cell.setCellType(Cell.CELL_TYPE_STRING) :-)

vtVitus ★★★★★
(23.08.17 11:19:51 MSK)

Ответ на: комментарий от vtVitus 23.08.17 11:19:51 MSK

если без потоков, то не хватает памяти.

bvn13 ★★★★★
(23.08.17 11:20:41 MSK) автор топика

Жавы не знаю, но по коду вижу, что либа для чтения предоставляет возможность потокового чтения через итератор, а ты берешь, все это говнище читаешь и грузишь в память через лист. Сначала программировать научись.

nikolnik ★★★
(23.08.17 11:27:57 MSK)