awk & uniq

0

1

Ребята, есть текстовый файл, вот такого формата:

7777,66666666,1,135,1,

7777,66666666,2,129,Y,

7777,66666666,3,129,Y,

7778,66666667,1,135,1,

7778,66666667,2,129,Y,

7778,66666667,3,129,Y,

7778,66666667,4,129,Y,

помогите, пожалуйста, удалить строки в которых идет дупликация в 4м поле (строки с 129 должны быть по одному разу). Желательно однострочным.....

Ссылка

← mysql 2014-00-00

Настройка Apache →

sort -t, -k4 -u

anonymous
(21.03.14 21:11:26 MSK)

Ссылка

awk -F, '$4==t{next} {t=$4} 1'

anonymous
(21.03.14 22:14:44 MSK)

awk -F, -v x=, 'x!=$4,x=$4'

anonymous
(21.03.14 22:44:00 MSK)

Ссылка

Ответ на: комментарий от anonymous 21.03.14 22:14:44 MSK

спасибо, так работает, но только если дубликации идут последовательно, если между ними строка, то потом оно не срабатывает, и снова повторяет строку

visavis
(22.03.14 00:17:10 MSK) автор топика

Ответ на: комментарий от visavis 22.03.14 00:17:10 MSK

3001,71000004,1,201,1,

3001,71000004,2,135,Y,

3001,71000004,3,122,Y,

3001,71000004,4,201,Y,

3001,71000004,5,135,Y,

3001,71000004,6,135,Y,

3001,71000004,7,135,Y,

в таком случае получаю два раза 135....есть варианты как это избежать?

visavis
(22.03.14 00:17:45 MSK) автор топика

Ответ на: комментарий от visavis 22.03.14 00:17:45 MSK

awk -F, '!x[$4]++'

или первый ответ в теме

anonymous
(22.03.14 00:19:47 MSK)

Если входной текст отсортирован по полям слева направо, то

cat text.txt | sort -nu -k4 -t "," | sort > out.txt

Первый sort убирает дубли по полю 4, второй возвращает предполагаемый первоначальный порядок тому, что осталось. А awk тут будет не в тему избыточен.

blexey ★★★★★
(24.03.14 01:05:27 MSK)

Ответ на: комментарий от blexey 24.03.14 01:05:27 MSK

для проверки того что sort делает дописывай к нему --debug. первый ответ в теме той же ошибкой страдает.

правильный ключ для четвертого поля -k4,4.

А awk тут будет не в тему избыточен.

а как sort строки сортирует? совсем не использует память?

anonymous
(24.03.14 01:15:28 MSK)

Ответ на: комментарий от anonymous 24.03.14 01:15:28 MSK

а как sort строки сортирует? совсем не использует память?

Использует (как и awk), но при этом не тянет за собой ~~блэкджек и шл~~ целый язык туда, где он не нужен.

blexey ★★★★★
(24.03.14 01:34:27 MSK)

Ответ на: комментарий от anonymous 22.03.14 00:19:47 MSK

спасибо, работает для этого

3001,71000004,1,201,1,

3001,71000004,2,135,Y,

3001,71000004,3,122,Y,

3001,71000004,4,201,Y,

3001,71000004,5,135,Y,

3001,71000004,6,135,Y,

3001,71000004,7,135,Y,

в таком случае получаю два раза 135....есть варианты как это избежать?

но подскажите еще как исключить из данной сортировки если значение 3го столбца равно 1, т.е. проверка дупликаций только если значение 3го столбца =>2?

visavis
(24.03.14 15:06:36 MSK) автор топика

Ответ на: комментарий от blexey 24.03.14 01:34:27 MSK

Использует (как и awk)

Не как awk. sort держит все строки (и полностью всю строку), awk создает hash по одному полю. При большом входном файле awk отработает значительно быстрее

~~sdio~~ ★★★★★
(24.03.14 15:10:24 MSK)

Ссылка

Ответ на: комментарий от visavis 24.03.14 15:06:36 MSK

в таком случае получаю два раза 135

врешь ведь

~~sdio~~ ★★★★★
(24.03.14 15:11:55 MSK)

Ссылка

Ответ на: комментарий от visavis 24.03.14 15:06:36 MSK

т.е. проверка дупликаций только если значение 3го столбца =>2?

&& $3>1

~~sdio~~ ★★★★★
(24.03.14 15:13:52 MSK)

Ссылка

Ответ на: комментарий от visavis 24.03.14 15:06:36 MSK

+ cat run.sh
#!/bin/bash -x

cat run.sh

awk -F, '$3>1&&!x[$4]++' <<EOF
3001,71000004,1,201,1,
3001,71000004,2,135,Y,
3001,71000004,3,122,Y,
3001,71000004,4,201,Y,
3001,71000004,5,135,Y,
3001,71000004,6,135,Y,
3001,71000004,7,135,Y,
EOF
+ awk -F, '$3>1&&!x[$4]++'
3001,71000004,2,135,Y,
3001,71000004,3,122,Y,
3001,71000004,4,201,Y,

anonymous
(24.03.14 15:28:41 MSK)