[sed -rn][эквилибристика] Нужно посчитать

0

1

Допустим, очень большой файл состоит из строк типа

.*sha-la-la[0-9].*tra-la-la[0-9].*

Задача — посчитать все tra-la-la1…tra-la-la9, у которых одинаковое sha-la-la. Так как счётчика в sed не предусмотрено (за исключением =, но я не придумал, как бы его здесь можно использовать, не сбрасывая временных данных в файл), то решено было привести файл к следующему виду, выделив по строке на каждую sha-la-la

sha-la-la tra-la-la1 tra-la-la2 tra-la-la3 …

А потом, когда объём таким образом уже полегчает, как-нибудь заменить все эти tra-la-la на собственно их число. Пока что я надумал только использовать для этого regexp вида

/.*(sha-la-la[0-9]).*(tra-la-la[0-9]).*/ {;;}

но перед этим как бы внутри {…} знать текущие \1 и \2?

Ссылка

←	Sendmail ограничение доступа списка рассылки

[GIT] Как синхронизировать каталог по принципу «удаленное удаляем, измененное изменяем, добавленное добавляем» ?

→

заюзать перл религия не позволяет?

marvin_yorke ★★★
(27.04.11 16:26:02 MSK)

или awk хотя бы, там вроде были счетчики

marvin_yorke ★★★
(27.04.11 16:26:37 MSK)

Ссылка

До меня всё равно слабо дошло содержание ОП, ты бы пример файла не постеснялся привести, и то что ты хочешь получить на выходе.

>>Задача — посчитать все

grep --count не подойдёт?

~~adriano32~~ ★★★
(27.04.11 16:38:08 MSK)

Не анонируй. Просто используй python/ruby/perl.

anonymous
(27.04.11 16:57:16 MSK)

Ссылка

использовать авк/перл/питон вместо веда.

val-amart ★★★★★
(27.04.11 16:57:19 MSK)

Ссылка

Ответ на: комментарий от marvin_yorke 27.04.11 16:26:02 MSK

Да, мне стыдно, но я не знаю Perl.

Deleted
(28.04.11 08:09:35 MSK)

Ответ на: комментарий от marvin_yorke 27.04.11 16:26:02 MSK

Да, мне стыдно, но я не знаю перл.
Насчёт awk я посмотрел, возможно пригодится, хотя там до вот этой задачи стоит несколько диапазонов условий, где искать, вычленяемые тремя regexp-ами на sed, посмотрю, можно ли заменить на awk, его я хотя бы чуть-чуть знаю.

Deleted
(28.04.11 09:35:42 MSK)

Ссылка

Ответ на: комментарий от Deleted 28.04.11 08:09:35 MSK

на том уровне, что вам требуется, его реально освоить за 2 часа, что, я полагаю, меньше, чем вы уже потратили на изыскания с седом. Р. Шварц «Изучаем Perl» - то, что вам нужно. с ходу - попробуйте так [code=perl] #!/usr/bin/perl

$filename = $ARGS[0]; open my $FILE, «<$filename»; while (<$FILE>) { /sha-la-la(\d+).tra-la-la(\d+)/; # теперь в переменной $1 лежит номер sha-la-la # а в $2 - номер tra-la-la } close $FILE; [/code]

marvin_yorke ★★★
(28.04.11 09:37:25 MSK)

Ответ на: комментарий от marvin_yorke 28.04.11 09:37:25 MSK

 
#!/usr/bin/perl

$filename = $ARGS[0]; 
open my $FILE, "<$filename"; 

while (<$FILE>) 
{
   /sha-la-la(\d+).tra-la-la(\d+)/; 
   # теперь в переменной $1 лежит номер sha-la-la 
   # а в $2 - номер tra-la-la 
} 
close $FILE;

marvin_yorke ★★★
(28.04.11 09:38:19 MSK)

Ответ на: комментарий от marvin_yorke 28.04.11 09:38:19 MSK

регулярку неправильно написал. ну думаю ее вы осилите. смысл - в группировке скобками. то, что попадает в первую скобку, кладется в $1, во вторую - в $2 и т.д.

marvin_yorke ★★★
(28.04.11 09:40:16 MSK)

Ссылка

Ответ на: комментарий от adriano32 27.04.11 16:38:08 MSK

Нет, я кончено могу собрать половину бусибокса и затолкать всё это в один конвейер, и это действительно будет работать, однако исходный файл грепать — это 1,5 гигабайта. Ну порежется там дай бог 2/3 — это значит, что ещё 500 MiB надо передавать через конвейер. Я потому и хочу начать седом и им же срезать как можно больше, (а заодно и отсортировать), потому что он работает с файлом построчно не запруживая память и в дальнейшем передаст приемлемый объём данных другой команде.

Deleted
(28.04.11 09:42:21 MSK)

Ссылка

Ответ на: комментарий от marvin_yorke 28.04.11 09:38:19 MSK

Спасибо, пойду разбираться.

Deleted
(28.04.11 10:04:39 MSK)

Ссылка

Такое чувство что описание задачи сложнее ее самой :) Ты бы еще больше дефисов между одинаковыми буквами подобавил, чтоб вообще читать невозможно было.

fagot ★★★★★
(29.04.11 10:59:26 MSK)