Как итерировать через CSV файл содержащий запятую внутри?

1

1

Т.е.

foo,"bar,baz"

Дефолтный CSV-парсер по строчкам с IFS=, парсит, очевидно, некорректно.

Ссылка

← sudoers: запустить команду от имени www-data без пароля

NGINX убрать index.php\html →

Дефолтный CSV-парсер по строчкам

В bash’е нет csv-парсера. Вот неожиданность-то.

Или брать что-то в духе csvkit, или же реализовать задачу не на bash.

Deleted
(24.01.19 14:07:30 MSK)

Ответ на: комментарий от Deleted 24.01.19 14:07:30 MSK

Или не csv а tsv.

letni ★
(24.01.19 14:15:13 MSK) автор топика

Ответ на: комментарий от letni 24.01.19 14:15:13 MSK

Или другой разделитель, который точно не будет использован в значениях :)

Deleted
(24.01.19 14:21:24 MSK)

Ссылка

Есть мысль, что существует некое подобие jq для csv.

IPR ★★★★★
(24.01.19 14:22:26 MSK)

Ссылка

Ну вроде же недавано тут писал...

ftp://ftp.simtreas.ru/pub/my/csv2html.sh

эскейпинг \" не понимает, но двойные "" — понимает.

vodz ★★★★★
(24.01.19 14:31:53 MSK)

Ответ на: комментарий от vodz 24.01.19 14:31:53 MSK

Так допиши чтоб понимал.

И это, ты что, не видел цсв с переводами строк (разделитель рядов) внутри двойных кавычек? Ну так я видел — считается валидным, так же как и запятая (разделитель колонок).

deep-purple ★★★★★
(24.01.19 14:34:05 MSK)

Ответ на: комментарий от deep-purple 24.01.19 14:34:05 MSK

Так допиши чтоб понимал.

Так я дописал, на C. На bash это было пятиминутное баловство.

vodz ★★★★★
(24.01.19 14:36:09 MSK)

Просто используйте питон, а не богомерзкий баш.

~~RazrFalcon~~ ★★★★★
(24.01.19 14:36:52 MSK)

Ответ на: комментарий от vodz 24.01.19 14:36:09 MSK

на C

А вот это по нашему. Ссылку на репо дашь? Могу добавить поддержку утф-8 (без доп либ), если таковая отсутствует и у тебя только обычные чары.

deep-purple ★★★★★
(24.01.19 14:40:31 MSK)

Ответ на: комментарий от deep-purple 24.01.19 14:40:31 MSK

Ссылку на репо дашь?

Трудно было догадаться поменять .sh на .c в том URL?

Могу добавить поддержку утф-8 (без доп либ), если таковая отсутствует

Для koi8/cp1251 -> utf8 там присутствует.

vodz ★★★★★
(24.01.19 14:42:32 MSK)

Ответ на: комментарий от vodz 24.01.19 14:42:32 MSK

Откуда я знаю отдаешь ты список файлов или нет. И проверять не стал. А уж как ты их там обозвал только тебе и известно.

Ты что на фряхе сидишь (ну или тебя сакрихту с эдиком покусали)? Комментарии в файле в кои-8.

Я про чтение утф-8 — нету. Ну и раз уж я открыл сорцы, зачем маллочишь так много, а если файл паругиговый?

deep-purple ★★★★★
(24.01.19 15:05:46 MSK)

Ответ на: комментарий от RazrFalcon 24.01.19 14:36:52 MSK

Просто используйте питон

Плюсую. Это задача, для которой bash - не лучший выбор

а не богомерзкий баш.

Минусую

Kroz ★★★★★
(24.01.19 15:25:11 MSK)

Ссылка

Очевидно он парсит корректно. По спекам надо эскейпить разделитель.

Deleted
(24.01.19 15:41:29 MSK)

Ссылка

$ cat delme.txt
foo,"bar,baz"
"foo,bar",baz

$ cat delme.txt | while read L; do echo "$L" | perl -pe 's/"([^"]*+)"[,\n]?|([^",\n]+)[,\n]?/<$1$2>/g' ; echo ; done
<foo><bar,baz>
<foo,bar><baz>

Немного переработанное решение arsi.

Kroz ★★★★★
(24.01.19 15:43:06 MSK)

Ответ на: комментарий от vodz 24.01.19 14:42:32 MSK

Трудно было догадаться поменять .sh на .c в том URL?

Страшно, вырубай. Нет чтобы на нормальных языках писать...

~~RazrFalcon~~ ★★★★★
(24.01.19 15:57:07 MSK)

Ссылка

Ответ на: комментарий от deep-purple 24.01.19 15:05:46 MSK

Я про чтение утф-8 — нету.

Да читайте наздоровье, получите на выходе ваш любимый он же. Какие проблемы то? Для этого оно и таким богомерзким и придумано.

vodz ★★★★★
(24.01.19 16:12:45 MSK)

Ссылка

Ответ на: комментарий от deep-purple 24.01.19 15:05:46 MSK

Чтение некрокодировок — мастхэв в парсерах и прочих слоях совместимости.

~~Moondancer~~
(24.01.19 16:49:26 MSK)

Ответ на: комментарий от deep-purple 24.01.19 15:05:46 MSK

зачем маллочишь так много, а если файл паругиговый?

Так много — это как? У меня стояла задача не тупо, а с фильтром обработать, потому для пересортировки столбцов надо вначале строку всю и поместить в память. После вывода строки (если полностью не отфильтровалось) память освобождается. Если у вас одна строка гиговая, то как потом вы это смотреть будете?

vodz ★★★★★
(24.01.19 16:54:07 MSK)

Ответ на: комментарий от vodz 24.01.19 16:54:07 MSK

Бегло смотрел. Если после каждой строки освобождает то гут.

deep-purple ★★★★★
(24.01.19 18:02:06 MSK)

Ссылка

Ответ на: комментарий от Kroz 24.01.19 15:43:06 MSK

Kroz best.

Deleted
(24.01.19 18:02:48 MSK)

Ответ на: комментарий от Moondancer 24.01.19 16:49:26 MSK

Ну ты выдал — парсер должен знать какого размера символ в байтах, чтобы не пропарсить 1/2, 1/3, 1/4, 1/5 или 1/6 символа как целый один.

deep-purple ★★★★★
(24.01.19 18:03:53 MSK)

Ответ на: комментарий от Deleted 24.01.19 18:02:48 MSK

Kroz best.

Ну мало того, что тут bash только запускалка, так ещё править и править для вполне валидных csv:

$ cat delme.txt 
bar,
"bar,""baz""",foo

и т. д.

vodz ★★★★★
(24.01.19 18:22:46 MSK)
Последнее исправление: vodz 24.01.19 18:26:44 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Kroz 24.01.19 15:43:06 MSK

#!/usr/bin/env python3

import csv

with open('test.csv') as f:
    for row in csv.reader(f):
        print(row)

~~RazrFalcon~~ ★★★★★
(24.01.19 18:53:40 MSK)

Ответ на: комментарий от deep-purple 24.01.19 18:03:53 MSK

Вотъ, а как раз в случае с UTF-8 нужна плотная интеграция с опознавателем кодировки, потому что число байт в нём всегда переменно.

~~Moondancer~~
(24.01.19 18:57:33 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 24.01.19 18:53:40 MSK

На самом деле плюсую.

Kroz ★★★★★
(24.01.19 19:08:26 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← sudoers: запустить команду от имени www-data без пароля

Admin

NGINX убрать index.php\html →

Похожие темы