<...> с полтычка <...>

$ echo AAAAAA 2018-01-26 BBBBBB | sed -r 's/(.*) ..(.*)-(.*)-(.*) (.*)/\1 \4-\3-\2 \5/'
AAAAAA 26-01-18 BBBBBB

Deleted
(23.11.18 09:20:26 MSK)

Ответ на: комментарий от Deleted 23.11.18 09:20:26 MSK

я бы не (.*) использовал (что значит «любой символ 0 или несколько раз), а точное совпадение с цифрами формата YYYY-MM-DD

# echo AAAAAA 2018-01-26 BBBBBB | sed -r 's/(.*) ..([0-9]{2})-([0-9]{2})-([0-9]{2}) (.*)/\1 \4-\3-\2 \5/'
AAAAAA 26-01-18 BBBBBB

bvn13 ★★★★★
(23.11.18 09:38:23 MSK)
Последнее исправление: bvn13 23.11.18 09:38:53 MSK (всего исправлений: 1)

echo 'AAAAAA 2018-01-26 BBBBBB' | gawk '{
 split($2,a,"-");
 a[1]=substr(a[1],3); 
 $2=a[3]"-"a[2]"-"a[1]; 
 print}'

futurama ★★★★★
(23.11.18 10:09:33 MSK)

Ссылка

с полтычка

futurama, на awk даже специальная функция есть для subj

echo 'AAAAAA 2018-01-26 BBBBBB' | awk '/^AAAAAA [0-9]{4}-[0-9]{2}-[0-9]{2} BBBBBB/ { print gensub(/..(..)-(..)-(..)/, "\\3-\\2-\\1", 1)}'

vodz ★★★★★
(23.11.18 10:19:49 MSK)
Последнее исправление: vodz 23.11.18 10:21:13 MSK (всего исправлений: 1)

Ответ на: с полтычка от vodz 23.11.18 10:19:49 MSK

Я не хочу regexp, split дешевле

futurama ★★★★★
(23.11.18 10:22:09 MSK)

Ответ на: комментарий от futurama 23.11.18 10:22:09 MSK

Ой, не факт. Одно дело был бы компилируемый язык, другое несколько операций на интерпретаторе, что ниверирует более быстрые функции.

vodz ★★★★★
(23.11.18 10:24:50 MSK)

sed is a Stream EDitor; use ex

$ ex -sc '%s/ \(\d\{4\}\)-\(\d\d\)-\(\d\d\) / \3-\2-\1 /g|x' file

Кошэрно, портабельно, POSIX-совместимо.

~~mos~~ ★★☆☆☆
(23.11.18 11:06:37 MSK)

Ссылка

(всего исправлений: 5)

вэп программисты они особенные...

~~mos~~ ★★☆☆☆
(23.11.18 11:09:24 MSK)

Ссылка

Если регулярка будет составлена верно и формат даты меняться не будет, то

sed -ir file.txt

будет достаточно.

Deleted
(23.11.18 11:11:51 MSK)

Ответ на: комментарий от vodz 23.11.18 10:24:50 MSK

Ой, не факт.

regexp медленнее, это плата за гибкость

$ cat benchawk.sh 
#!/bin/bash

gen_file() {
test -e $1 || for ((i=0; i<1000000; i++))
do
        echo AAAAAA 2018-01-26 BBBBBB
done > $1
}

bench_awk_re() {
  cat $1 | awk '/^.* [0-9]{4}-[0-9]{2}-[0-9]{2} .*/ { print gensub(/..(..)-(..)-(..)/, "\\3-\\2-\\1", 1)}'
}

bench_awk_subst() {
 cat $1 | gawk '{
 split($2,a,"-");
 a[1]=substr(a[1],3); 
 $2=a[3]"-"a[2]"-"a[1]; 
 print}'
}

F=/tmp/bench_awk.txt
gen_file $F

echo regexp
time bench_awk_re $F >/dev/null
echo -------
echo subst
time bench_awk_subst $F >/dev/null

$ ./benchawk.sh 
regexp

real    0m2,449s
user    0m2,617s
sys     0m0,004s
-------
subst

real    0m1,046s
user    0m1,042s
sys     0m0,045s

Deleted
(23.11.18 11:17:36 MSK)

Ответ на: комментарий от Deleted 23.11.18 11:11:51 MSK

sed is a Stream EDitor, not a file editor.

Nevertheless, people everywhere tend to abuse it for trying to edit files. It doesn't edit files.
GNU sed (and some BSD seds) have a -i option that makes a copy and replaces the original file with the copy.
An expensive operation, but if you enjoy unportable code, I/O overhead and bad side effects (such as destroying symlinks), this would be an option

~~mos~~ ★★☆☆☆
(23.11.18 11:32:48 MSK)

Ответ на: sed is a Stream EDitor, not a file editor. от mos 23.11.18 11:32:48 MSK

Имхо, но, думаю, что это устаревшая информация.

Deleted
(23.11.18 12:26:00 MSK)

Ответ на: комментарий от Deleted 23.11.18 12:26:00 MSK

по крайней мере, ни название sed, ни то что люди его используют не по назначению заложенному в названии, ни нестандартность ключа -i точно не устарели. как наверное и то что линки убьются при таком использовании.
а вот на сравнение производительности sed -i и ex/ed я бы тоже глянул.

~~mos~~ ★★☆☆☆
(23.11.18 13:14:16 MSK)

Ссылка

Ответ на: комментарий от Deleted 23.11.18 11:17:36 MSK

А это ничего, что у меня там два regex, а сравниваете вы с вариантом, где вообще входная строка не проверяется?

vodz ★★★★★
(23.11.18 14:10:28 MSK)

Ответ на: комментарий от vodz 23.11.18 14:10:28 MSK

О том и речь. Если регулярку предельно упростить и применять один раз, то скорость вырастет в разы.

$ bench_fast() { cat $1 | awk '{ print gensub(/ ..(..)(-..-)(..) /, " \\3\\2\\1 ", 1)}'; }
$ time bench_fast /tmp/bench_awk.txt >/dev/null

real    0m0,958s
user    0m0,946s
sys     0m0,069s

Deleted
(23.11.18 14:15:33 MSK)
Последнее исправление: Deleted 23.11.18 14:16:08 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 23.11.18 14:15:33 MSK

О том и речь.

Нет. Прежде чем вклиниваться в диспут стоило бы разобраться о чём речь.

Речь была о gensub() vs split()+substr()+другие строчные выражения.

vodz ★★★★★
(23.11.18 14:30:48 MSK)
Последнее исправление: vodz 23.11.18 14:31:52 MSK (всего исправлений: 1)

Ответ на: комментарий от vodz 23.11.18 14:30:48 MSK

Прежде чем вклиниваться в диспут стоило бы разобраться о чём речь.

Мне казалось это очевидным. Хорошо, тогда напишу свою мысль подробно.

Когда мы манипулируем подстроками, ориентируясь лишь на позиции разделителей и длины подстрок, мы получаем примерно равномерную производительность вне зависимости от содержимого файла.

При использовании regexp'ов скорость напрямую зависит от того, насколько он сложен.

Deleted
(23.11.18 14:47:30 MSK)

Ответ на: комментарий от Deleted 23.11.18 14:47:30 MSK

Мне казалось это очевидным.

Что это? Вы ведь так и не прочитали исходное возражение и не вникли...

другое несколько операций на интерпретаторе

Прочитайте внимательнее! Речь была о том, что когда у нас gensub() vs split() то то что regex-ы тормознее ясен пень никто не спорил. Но вот когда к split() добавляется несколько ЕЩЁ операторов, и они не компилируются, а интерпретируются, то в СУММЕ не факт, что один regex будет их тормозней. Но сравнивать надо сравнимое, то есть до split надо либо добавить regex по поиску правильной исходной строки либо убрать первый regex у моего примера.

vodz ★★★★★
(23.11.18 18:11:32 MSK)

Ответ на: комментарий от vodz 23.11.18 18:11:32 MSK

Что это? Вы ведь так и не прочитали исходное возражение и не вникли...

Читаем вместе:

Ответ на: с полтычка от vodz 23.11.2018 10:19:49
Re: с полтычка

Я не хочу regexp, split дешевле
futurama ★★ (23.11.2018 10:22:09)

Ответ на: Re: с полтычка от futurama 23.11.2018 10:22:09

Ой, не факт. Одно дело был бы компилируемый язык, другое несколько операций на интерпретаторе, что ниверирует более быстрые функции.
vodz ★★★ (23.11.2018 10:24:50)

split дешевле

Но сравнивать надо сравнимое, то есть до split надо либо добавить regex по поиску правильной исходной строки либо убрать первый regex у моего примера.

Надо, так надо. Давайте сравним на большом файле со случайными данными оба варианта.

$ cat b_comparable.sh 
#!/bin/bash

gen_file() { test -e $1 || cat /dev/urandom | base64 | head -n 5000000 | awk '{ print $0" "strftime("%Y-%m-%d %H:%M:%S",NR) }' > $1; } 
b_re_split() { cat $1 | awk '/^.* [0-9]{4}-[0-9]{2}-[0-9]{2} .*/ { split($2,a,"-"); print $1" "a[3]"-"a[2]"-"substr(a[1],3)" "$3 }';  }
b_re_gensub() { cat $1 | awk '/^.* [0-9]{4}-[0-9]{2}-[0-9]{2} .*/ { print gensub(/..(..)-(..)-(..)/, "\\3-\\2-\\1", 1) }'; }
b_all_split() { cat $1 | awk '{ split($2,a,"-"); print $1" "a[3]"-"a[2]"-"substr(a[1],3)" "$3}'; }
b_all_gensub() { cat $1 | awk '{ print gensub(/..(..)-(..)-(..)/, "\\3-\\2-\\1", 1) }'; }

F=/tmp/b_comparable.txt
gen_file $F
for P in b_re_split b_re_gensub b_all_split b_all_gensub; do echo $P; time $P $F > /dev/null; echo;  done

$ ./b_comparable.sh 
b_re_split

real    0m23,715s
user    0m23,574s
sys     0m1,155s

b_re_gensub

real    0m48,202s
user    0m48,113s
sys     0m3,410s

b_all_split

real    0m5,463s
user    0m5,310s
sys     0m0,424s

b_all_gensub

real    0m30,267s
user    0m30,118s
sys     0m3,375s

split дешевле

Deleted
(24.11.18 10:58:44 MSK)

Ответ на: комментарий от Deleted 24.11.18 10:58:44 MSK

split дешевле

Вы русский разумеете? Выражение «не факт» не означает, что 100% не факт, а означает, что говорящий не знает факт и стоит возможные предположения. Есть ли в этом полезное? Безусловно. 23 секунды могут легко вырасти и в 48+ если задачу чуть усложнить, скажем, то что можно было б извлечь более сложным одним regex, пришлось бы еще наворотить еще груду split+substr. И именно об этом и стояла простейшая мысль, которую вы уже 5-й раз не можете распарсить.

vodz ★★★★★
(24.11.18 13:02:16 MSK)

Ответ на: комментарий от vodz 24.11.18 13:02:16 MSK

Вы русский разумеете?

Сохраняем нейтрально-уважительный стиль общения.

23 секунды могут легко вырасти и в 48+ если задачу чуть усложнить, скажем, то что можно было б извлечь более сложным одним regex, пришлось бы еще наворотить еще груду split+substr. И именно об этом и стояла простейшая мысль, которую вы уже 5-й раз не можете распарсить.

...И это будет другой задачей, и она будет решаться иначе и, возможно, при её решении манипулирование подстроками не будет таким эффективным вариантом обработки файла. При использовании regexp'ов скорость напрямую зависит от того, насколько он сложен.

Для данной конкретной задачи, решение со split и substr показывает лучшую производительность, чем предложенный вами вариант с gensub и regexp.

Это экспериментально проверенный факт. Это было очевидно и без проведения тестов, потому, что split дешевле, чем regexp.

Deleted
(24.11.18 14:28:18 MSK)

Ответ на: комментарий от Deleted 24.11.18 14:28:18 MSK

И это будет другой задачей,

Не обязательно. Под AAAA и BBBB может быть что угодно, и это сразу в вашей терминологии получит требование all -> re. А там уже и разница не столь внушительна.

Это экспериментально проверенный факт. Это было очевидно и без проведения тестов, потому, что split дешевле, чем regexp.

О, Боже... Как де вы достали тупить. Последний раз и похоже вас уже пора в игнор. Если задача приводит к нескольким операциям, то при опередленных условиях может оказаться, что один regex быстрее чем совокупность нескольких последовательных более простых операция над строками.

vodz ★★★★★
(24.11.18 14:43:22 MSK)

Ответ на: комментарий от vodz 24.11.18 14:43:22 MSK

Не обязательно. Под AAAA и BBBB может быть что угодно, и это сразу в вашей терминологии получит требование all -> re. А там уже и разница не столь внушительна.

Да, не обязательно. Предложите свой testcase, и тогда будет о чём говорить.

О, Боже... Как де вы достали тупить. Последний раз и похоже вас уже пора в игнор.

Вы несдержанны в словах, это печально.

Если задача приводит к нескольким операциям, то при опередленных условиях может оказаться, что один regex быстрее чем совокупность нескольких последовательных более простых операция над строками.

Где и когда я это отрицал?

Deleted
(24.11.18 14:53:31 MSK)

Ответ на: комментарий от Deleted 24.11.18 14:53:31 MSK

Где и когда я это отрицал?

Откуда я знаю, зачем вы развели эту бодягу? Ибо это одна и та же мысль, сказанная и так и этак раз 5 и как и всякая обтекаемая совершенно не требующая никаких жарких споров, но вы же с завидной энергией под до что-нибудь бы более полезное, ринулись в бой.

vodz ★★★★★
(24.11.18 15:11:04 MSK)
Последнее исправление: vodz 24.11.18 15:11:48 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от bvn13 23.11.18 09:38:23 MSK

В итоге взял этот вариант. Только прошлось посношаться с ; И как разделителем команд sed, И как с элементом регекспа


find /home/yu/smg-cdr -name "*.cdr" -exec sed -r 's/\;/ /g; s/(.*) ..([0-9]{2})-([0-9]{2})-([0-9]{2}) (.*)/\1 \4-\3-\2 \5/'  {} >> /home/yu/cdr.txt \; -exec rm -f {} \;

yu-boot ★★★★
(10.12.18 14:38:04 MSK) автор топика

Ответ на: комментарий от yu-boot 10.12.18 14:38:04 MSK

Комрады не стал тему создавать, помогите применить команду на последний столбец $NF

awk 'BEGIN {OFS="/"}{print substr($1,5,2), substr($1,7,2), substr($1,1,4)}'

Было

19790513
19790513
20000901

Стало

05/13/1979
05/13/1979
09/01/2000

Заранее спасибо.

rusic
(20.04.19 21:37:01 MSK)

Самый лучший формат даты, ничего не трогай.

crutch_master ★★★★★
(20.04.19 21:41:41 MSK)

Ответ на: комментарий от crutch_master 20.04.19 21:41:41 MSK

Я это понимаю, помогите применить скрипт на последний столбец.

rusic
(21.04.19 06:56:39 MSK)

Ответ на: комментарий от rusic 21.04.19 06:56:39 MSK

Комрады, кто поможет за чашку кофе скрипт awk подшаманить? P.S. В моем верхнем посте не тот скрипт.

rusic
(21.04.19 08:17:03 MSK)

Ссылка

Ответ на: комментарий от rusic 20.04.19 21:37:01 MSK

помогите применить команду на последний столбец

Чего надо то? Это, что ле?:

$ awk 'BEGIN {OFS="/"}{print substr($1,7,2), substr($1,5,2), substr($1,3,2)}'

Deleted
(21.04.19 08:24:46 MSK)

Ответ на: комментарий от Deleted 21.04.19 08:24:46 MSK

zvezdochiot давайте спишемся вне форума, я покажу строки.

rusic
(21.04.19 08:43:41 MSK)

Ответ на: комментарий от rusic 21.04.19 08:43:41 MSK

вне форума

ЛОР наще всё, pastebin в помощь.

Deleted
(21.04.19 08:45:23 MSK)

Ответ на: комментарий от Deleted 21.04.19 08:45:23 MSK

dfdfdfdfd 71901520080000234 ИВАНОВА СВЕТЛАНА ПАВЛОВНА 21/10/1972 15/04/2018 00/00/0000
dfdfdfdfd 51901520083000165 БЕЛОВ ДМИТРИЙ ВАЛЕРЬЕВИЧ 21/03/1944 11/03/2019 00/00/0000 
fhghgfhgf 61901520080000197 ГУЩИН ПАВЕЛ 01/07/1936 24/03/2017 00/00/0000

Нужна замена через awk последних трех столбцов на формат yyyymmdd

rusic
(21.04.19 08:54:21 MSK)

Ответ на: комментарий от rusic 21.04.19 08:54:21 MSK

последних трех столбцов на формат yyyymmdd

Не стал заморачиваться, сделал «по-тупому»:

$ rev test.txt | awk '{ print $1 " " $2 " " $3 }' | rev | awk '{ print substr($1,7,4) substr($1,4,2) substr($1,1,2), substr($2,7,4) substr($2,4,2) substr($2,1,2), substr($3,7,4) substr($3,4,2) substr($3,1,2) }'

Deleted
(21.04.19 09:02:47 MSK)

Ссылка

Ответ на: комментарий от rusic 21.04.19 06:56:39 MSK

Сделай на любом яп, котором умеешь. Зачем тебе этот изврат с awk? Никто не поймёт потом что это и зачем.

crutch_master ★★★★★
(21.04.19 09:36:25 MSK)

Ответ на: комментарий от crutch_master 21.04.19 09:36:25 MSK

zvezdochiot

Забыл упомянуть, awk использую в винде, команда rev не обрабатывается

rusic
(21.04.19 11:09:40 MSK)

Ответ на: комментарий от rusic 21.04.19 11:09:40 MSK

awk использую в offtop, команда rev не обрабатывается

А какие команды в наличии?

Deleted
(21.04.19 11:11:26 MSK)

Ответ на: комментарий от Deleted 21.04.19 11:11:26 MSK

скажите какие нужны?

rusic
(21.04.19 11:15:45 MSK)

Ответ на: комментарий от rusic 21.04.19 11:15:45 MSK

https://www.dropbox.com/s/118fw2dkq2499lc/coreutils-5.3.0-bin.zip?dl=0

rusic
(21.04.19 11:18:03 MSK)

Ответ на: комментарий от rusic 21.04.19 11:18:03 MSK

+ sed есть

rusic
(21.04.19 11:19:02 MSK)

Ответ на: комментарий от rusic 21.04.19 11:19:02 MSK

скажите какие нужны?
sed есть

Забей:

$ awk '{ i = (NF - 2); j = (NF -1); k = NF; print substr($i,7,4) substr($i,4,2) substr($i,1,2), substr($j,7,4) substr($j,4,2) substr($j,1,2), substr($k,7,4) substr($k,4,2) substr($k,1,2) }' test.txt

Deleted
(21.04.19 11:24:25 MSK)

Ответ на: комментарий от Deleted 21.04.19 11:24:25 MSK

3 последних столбца меняются, но в итоге они только и остаются

rusic
(21.04.19 11:28:17 MSK)

Ссылка

с полтычка

sed is a Stream EDitor; use ex

sed is a Stream EDitor, not a file editor.

Похожие темы