Java - кроссплатформенное чтение UTF-8 файла в одну длинную строку

0

1

Делал так (взял откуда-то из инета):

File file = new File(fileAbsolutePath);
String s = new Scanner(file).useDelimiter("\\Z").next();

Всего пара строк, в s - весь файл. У меня на windows 1251 по умолчанию, такие файлы читаются нормально. Но на линуксах все не так, да и вообще хочется универсальный вариант. Задача простейшая - выбрать кроссплатформенную кодировку, например UTF-8, и сделать чтобы везде она правильно читалась. Смотрю интернет - как обычно в java: куча вариантов, классов, депрекейтед методов и т.п. Чтение построчное... Вопрос - могу я в 21 веке просто и универсально решить эту сложнейшую сверхзадачу - прочитать текст в строку? По возможности не в 200 строк кода, хотя если в java все так принято, то сойдет хоть как.

Ссылка

← Как можно пользоваться приложением, написанном на Qt в браузере?

Изучая Си: yet another forkbomb →

try(InputStream is = new FileInputStream(fileName)) {
String s = IOUtils.toString(is, StandardCharsets.UTF_8);
}

https://commons.apache.org/proper/commons-io/apidocs/org/apache/commons/io/IO...

да, можно без сторонних библиотек, но ты пока мал для такой магии

Deleted
(21.01.16 23:43:40 MSK)
Последнее исправление: Deleted 21.01.16 23:45:19 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 21.01.16 23:43:40 MSK

Спасибо, пробую, пока нон-статик метод toString не лезет в статик контекст. Но попробую что-то сделать.

Ivana ★
(21.01.16 23:58:31 MSK) автор топика

Ответ на: комментарий от Ivana 21.01.16 23:58:31 MSK

public static String toString(InputStream input, String encoding)
нон-статик метод toString

А ты шутник 8)

Deleted
(22.01.16 00:02:43 MSK)

Ответ на: комментарий от Deleted 22.01.16 00:02:43 MSK

я прочитал по ссылке public static String toString. но мне то мой компилятор пишет именно то что я написал )

Ivana ★
(22.01.16 00:06:06 MSK) автор топика

Ответ на: комментарий от Ivana 22.01.16 00:06:06 MSK

Поздравляю

Deleted
(22.01.16 00:06:55 MSK)

Ответ на: комментарий от Deleted 22.01.16 00:06:55 MSK

    public static void loadFile (String fileName) {
        
        Runnable doIt = new Runnable() {
            public void run() {
                String fileAbsolutePath = CurrentDir() + fileName + ".txt";
                try(InputStream is = new FileInputStream(fileAbsolutePath)) {
                    String s = IOUtils.toString(is, StandardCharsets.UTF_8);
                    System.out.println(s);
                } catch (Throwable ex) {
                    System.out.println(ex.getLocalizedMessage());
                }
            }
        };

        try {
            SwingUtilities.invokeAndWait(doIt);
        } catch(Throwable ex) {
            System.out.println(ex.getLocalizedMessage());
        }
    }

Скорее всего я делаю что-то не так, но компилятор продолжает настаивать на нон-статик методе.

Ivana ★
(22.01.16 00:14:39 MSK) автор топика

Ответ на: комментарий от Ivana 22.01.16 00:14:39 MSK

Скорее всего я делаю что-то не так

ты импортируешь что-то не то, мне даже странно такое писать.

Deleted
(22.01.16 00:35:05 MSK)

Ответ на: комментарий от Deleted 22.01.16 00:35:05 MSK

Возможно я выбрал не то импортировать из списка того. что предложила IDEA. В итоге сердце успокоилось на вот таком коде

                    BufferedReader br = new BufferedReader(
                            new InputStreamReader(
                                    new FileInputStream(fileAbsolutePath), "UTF-8"));
                    final StringBuilder sb = new StringBuilder();
                    String nextString;
                    while ((nextString = br.readLine()) != null) {
                        sb.append(nextString);
                        sb.append("\n");
                    }
                    String s = sb.toString();

Ну и обернуто в invokeLater как в коде выше. Может это и неидиоматично, хотя с другой стороны - все как везде советуют, чтение через БуферРидер, накопление строки через СтрингБилдер.

Ivana ★
(22.01.16 00:40:10 MSK) автор топика

Ответ на: комментарий от Ivana 22.01.16 00:40:10 MSK

Уходи из программирования.

Deleted
(22.01.16 00:42:01 MSK)

Ответ на: комментарий от Deleted 22.01.16 00:42:01 MSK

Да ладно, оно большое, всем места хватит :) Спасибо за помощь в любом случае.

Ivana ★
(22.01.16 00:45:56 MSK) автор топика

Ответ на: комментарий от Ivana 22.01.16 00:45:56 MSK

Места та хватит, а тот у кого твой код будет незакрытые файлы оставлять спасибо не скажет.

Deleted
(22.01.16 01:05:03 MSK)

Ответ на: комментарий от Deleted 22.01.16 01:05:03 MSK

Не, ну я сразу же слазил в первоисточник http://www.skipy.ru/technics/encodings.html и вставил строчку br.close(); Или сам бы потом наткнулся на блокированный файл и устранил причину. Я где-то понимаю вашу категоричность, но все равно продолжу играться.

Ivana ★
(22.01.16 01:11:31 MSK) автор топика

Ссылка

Вот минимальный код, читающий файл в строку, используя UTF-8.

        File file = new File("test");
        String fileContents;
        try (InputStream fileStream = new FileInputStream(file);
             InputStream bufStream = new BufferedInputStream(fileStream);
             Reader reader = new InputStreamReader(bufStream, StandardCharsets.UTF_8)) {
            StringBuilder fileContentsBuilder = new StringBuilder();
            char[] buffer = new char[1024];
            int charsRead;
            while ((charsRead = reader.read(buffer)) != -1) {
                fileContentsBuilder.append(buffer, 0, charsRead);
            }
            fileContents = fileContentsBuilder.toString();
        } catch (IOException e) {
            throw new RuntimeException(e.getMessage(), e);
        }
        System.out.println(fileContents);

~~Legioner~~ ★★★★★
(22.01.16 01:44:34 MSK)

Ответ на: комментарий от Legioner 22.01.16 01:44:34 MSK

Через массив чаров волшебного размера 1024... А чем плох вот этот код, который я намеревался оставить:

public static String readFileToString (String fileAbsolutePath) throws IOException {

        BufferedReader br = new BufferedReader(
                new InputStreamReader(
                        new FileInputStream(fileAbsolutePath), "UTF-8"));
        final StringBuilder sb = new StringBuilder();
        String nextString;
        while ((nextString = br.readLine()) != null) {
            sb.append(nextString);
            sb.append("\n");
        }
        br.close();
        return sb.toString();
    }

Вызываю этот статический метод везде в попытке, передаю ему или имя только что выбранного файла, или запомненный путь в параметре.

Ivana ★
(22.01.16 01:51:49 MSK) автор топика

Ответ на: комментарий от Ivana 22.01.16 01:51:49 MSK

Во-первых, твой код не закрывает файл, если выбрасывается исключение.

Во-вторых он некорректно читает файл. readLine() читает строки с любыми окончаниями: \n, \r, \n\r. Твой код всё это преобразует в \n, т.е. портит исходный текст.

В-третьих он потенциально потребляет больше памяти, когда в файле много длинных строк.

В-четвёртых BufferedReader.readLine использует внутри себя StringBuffer. У этого класса все операции защищены локами, поэтому они могут выполняться дольше аналогичных в StringBuilder-е. В теории JVM может проигнорировать эти локи, но как на практике она себя ведёт, я не знаю.

~~Legioner~~ ★★★★★
(22.01.16 02:14:32 MSK)
Последнее исправление: Legioner 22.01.16 02:17:54 MSK (всего исправлений: 1)

Мммм, вот так?

String content = (new BufferedReader(new InputStreamReader(new FileInputStream("myfile")))).lines()
            .collect(() -> new StringBuilder(),
                (b, l) -> b.append(l).append(String.format("%n")),
                (b1, b2) -> b1.append(b2))
            .toString()

Нужна Java8.

Еще. Подключаешь Guava и делаешь:

String text = Resources.toString(Resources.getResource("foo.txt"), Charsets.UTF_8);

DiKeert ★★
(22.01.16 02:23:41 MSK)
Последнее исправление: DiKeert 22.01.16 02:31:20 MSK (всего исправлений: 3)

Ответ на: комментарий от Legioner 22.01.16 02:14:32 MSK

Legioner, спасибо, я не подозревал о стольких подводных камнях. Текст портит, да, это я понимаю, хотя в моем случае не критично. А остальные моменты буду думать тогда. Или пытаться импортировать что-то другое, чтобы самый первый код у меня все-таки вызывал статический toString.

Ivana ★
(22.01.16 02:29:27 MSK) автор топика

Ссылка

Ответ на: комментарий от DiKeert 22.01.16 02:23:41 MSK

DiKeert спасибо, попробую. У меня и так требования восьмерки, хотя наверное мое приложение можно было бы написать и на версии меньше. С Guava лаконично смотрится и скорее всего там не дураки - закрывают файлы, лочат что надо и т.п. Сколько она весит только... У меня сейчас все приложение 60 Кб jar-ник, и мне это нравится.

Ivana ★
(22.01.16 02:33:01 MSK) автор топика

Ответ на: комментарий от Ivana 22.01.16 02:33:01 MSK

~/./r/c/g/g/g/18.0 > du -sh guava-18.0.jar
2,2M    guava-18.0.jar

DiKeert ★★
(22.01.16 02:35:45 MSK)

Ответ на: комментарий от DiKeert 22.01.16 02:35:45 MSK

Имхо только для такой маленькой задачки на фоне всего приложения подключать Guava все-таки оверкилл. Буду пробовать остальные варианты, благо их аж 3 предложено уже.

Ivana ★
(22.01.16 02:39:55 MSK) автор топика

Ответ на: комментарий от Ivana 22.01.16 02:39:55 MSK

Аааа, я в первом варианте поспешил и согласился с тем, что предложила IDEA - импортировал sun.misc.IOUtils, а надо было org.apache.commons.io.IOUtils :) Или не импортировать и скопипастить вариант Legioner.

Ivana ★
(22.01.16 02:53:00 MSK) автор топика

Ссылка

Ответ на: комментарий от Legioner 22.01.16 02:14:32 MSK

Legioner очередное вам спасибо за код и комментарии. Оставлю в проекте ваш вариант - вы не малы для магии, а сторонние либы для таких мелочей я не хочу.

Ivana ★
(22.01.16 03:02:41 MSK) автор топика

Ссылка

Ответ на: комментарий от Legioner 22.01.16 01:44:34 MSK

InputStream fileStream = new FileInputStream(file);
             InputStream bufStream = new BufferedInputStream(fileStream);
             Reader reader = new InputStreamReader(bufStream, StandardCharsets.UTF_8)

три обертки, это вин 8)

Deleted
(22.01.16 13:28:22 MSK)

Ответ на: комментарий от Deleted 22.01.16 13:28:22 MSK

А что поделаешь, так сделали стандартную библиотеку, максимально разнесли функционал. Зато всё понятно.

~~Legioner~~ ★★★★★
(22.01.16 13:35:08 MSK)

Ответ на: комментарий от Legioner 22.01.16 13:35:08 MSK

Тем временем другие маги подсказали вот такое короткое заклинание

        byte[] fileBytes = Files.readAllBytes(Paths.get(fileAbsolutePath));
        String s = new String(fileBytes, StandardCharsets.UTF_8);

У меня работает. Лаконичность подкупает.

Ivana ★
(23.01.16 05:47:18 MSK) автор топика

Переходи на python )

~~te111011010~~ ★
(23.01.16 06:25:01 MSK)

Ссылка

Ответ на: комментарий от Ivana 23.01.16 05:47:18 MSK

Опять же двойной перерасход памяти из-за дублирования. А так нормально. Только Path и File это разные классы, не всегда это может быть удобно.

PS советую подцепить google guava, там очень много полезных методов, она пригождается в любом проекте. С ней это делается ещё проще: Files.toString(file, UTF_8) (класс Files из guava).

~~Legioner~~ ★★★★★
(23.01.16 11:17:57 MSK)

Ответ на: комментарий от Legioner 23.01.16 11:17:57 MSK

советую подцепить google guava,

ТС commons-io не осилил, гуава ему вообще плохо сделает.

ps. Files.readAllBytes оптимальнее гуавы т.к. аллоцирует массив на весь файл сразу, а не по мере наполнения

Deleted
(23.01.16 11:46:37 MSK)
Последнее исправление: Deleted 23.01.16 11:52:41 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 23.01.16 11:46:37 MSK

Legioner, ну мне не Войну и Мир читать, а потом эту строку все равно в АСТ парсить и она соберется коллектором, так что 2 раза по памяти не критично имхо. Что, говорите? Можно сразу из файла в АСТ парсить, минуя строку? Конечно, вы правы. Да еще и небось библиотечным парсером? Наверное, хотя у того, что я пробовал, выделение слов не такое как я хочу. Но это все имхо некритично, если не Война и Мир. За совет про либы спасибо, но пока хотел обойтись своими велосипедами.

subwoofer, кое-кто (а точнее, никто) в этом топике например не осилил дать это двухстрочное заклинание, а ТС не хочет импортить сторонние либы ради утилитарной подзадачи. Так что умерьте ваши понты, выглядит смешно.

Ivana ★
(23.01.16 13:11:21 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Как можно пользоваться приложением, написанном на Qt в браузере?

Development

Изучая Си: yet another forkbomb →

Похожие темы