sed и замена символов в большом файле

1

5

Здравствуйте Столкнулся с проблемой что sed не отрабатывает на файле размером 15 гигабайт, на части этого файла отрабатывает. Не отрабатывает это значит что-то делает, ошибок нет, но файл не меняется.

задача была такая 1. заменить \n на ',' «концов строки» может быть несколько \n\n\n а запятая нужна одна, в самом конце запятая не нужна 2. в начале файла воткнуть 1 символ 3. в конец файла воткнуть 1 символ

в итоге файл с 111111 222222 333333

нужно было переделать в [11111,22222,33333] не меняя имени файла

нашел такие варианты(возможно не самые лучшие) sed -i -r ':a;N;$!ba;s/\n+/,/g' FILE; sed -i -e '1 s/^/[/;' FILE; echo «]» >> FILE

попробовал 1000 строк и 3 гигабайта и уже на этом объеме проблема, попробую найти размер с которого начинается проблема

Ссылка

← Псевдографическое меню для запуска скриптов

Некорретно отображаются компоненты hardware на Linux Manjaro. →

ЕМНИП, sed с ключем -i делает копию файла в /tmp, соотвественно, если /tmp у тебя смонтирован в память, то большой файл туда просто не влезает.

Deleted
(16.11.17 14:07:07 MSK)
Последнее исправление: MyLittleLoli 16.11.17 14:07:38 MSK (всего исправлений: 1)

Насколько я помню (возможно ошибаюсь), единственный способ заставить sed обрабатывать файлы не построчно (чтобы заменять \n) приводит к тому, что весь файл загружается в память. Так что для больших файлов твой подход может не работать.

Попробуй лучше вот так:

tr "\n" "," <INPUT | sed -re 's/^/[/;s/,+/,/g;s/,+$/]/' >OUTPUT

Deleted
(16.11.17 14:10:47 MSK)
Последнее исправление: Deleted 16.11.17 14:13:30 MSK (всего исправлений: 3)

Ответ на: комментарий от Deleted 16.11.17 14:07:07 MSK

нет не в память, места много, похоже граница проблем проходит по отметке 2Gb

даже если смотреть глазами и рефрешить папку видно ,что создается бакап файл, он увеличивается в размерах, добегает до конца и исчезает.

Sintetik
(16.11.17 14:13:47 MSK) автор топика

sed -i

он создает временный файл в /tmp, потом перезаписывает, сделай явно sed ... > /раздел-заведомо-с-достаточным-местом/файл

anonymous
(16.11.17 14:16:32 MSK)

Ссылка

Ответ на: комментарий от Deleted 16.11.17 14:10:47 MSK

Не, так всё равно выжирает память. Не могу придумать как при помощи sed обрабатывать файлы по несколько гигабайт на строку. Видимо проще будет решить твою задачу небольшой программой на C или любом другом нормальном ЯП.

Deleted
(16.11.17 14:18:56 MSK)

Ответ на: комментарий от Sintetik 16.11.17 14:13:47 MSK

похоже граница проблем проходит по отметке 2Gb

ну может еще в файле слишком длинная строка в этом месте, можно попробовать проверить: awk '(b=length($0)) > a {a=b} END {print a}'

anonymous
(16.11.17 14:21:20 MSK)

Ссылка

Ответ на: комментарий от Deleted 16.11.17 14:18:56 MSK

одна строка это десятки MGB а вот сам файл десятки Gb это сервер, на нем 32Gb памяти

Sintetik
(16.11.17 14:23:05 MSK) автор топика

15 гигабайт ... [11111,22222,33333]

а кто его потом будет парсить-то?

без sed тогда уж: { printf '['; <infile ruby -pe 'chomp! if $<.eof?' | tr -s '\n' ,; printf ']'; } >outfile (вместо ruby можно awk, но многословнее)

anonymous
(16.11.17 14:26:40 MSK)

Ответ на: комментарий от anonymous 16.11.17 14:26:40 MSK

> ruby -pe 'chomp! if $<.eof?'

а блин, тоже навернется, проще через dd скипнуть последний \n

anonymous
(16.11.17 14:29:55 MSK)

Ссылка

Ответ на: комментарий от anonymous 16.11.17 14:26:40 MSK

есть специальный инструмент, просто файл приходит к нам слегка кривой, нужно слегка его подправить и тогда его можно будет скормить парсеру.

ruby на машине нет, нужно использовать стандартные утилиты из поставки линукса

Sintetik
(16.11.17 14:30:51 MSK) автор топика

Ответ на: комментарий от Sintetik 16.11.17 14:30:51 MSK

похоже вариант tr «\n» "," < in.json >> out.json проходит но tr «\n» "," < in.json >> in.json входит в какой-то бесконечный цикл и файл разрастается, приходится рубить команду

как сделать чтобы без создания новых файлов?

Sintetik
(16.11.17 14:36:21 MSK) автор топика

Ответ на: комментарий от Sintetik 16.11.17 14:36:21 MSK

как сделать чтобы без создания новых файлов?

в начале файла воткнуть 1 символ

простыми утилитами вряд ли получится, а почему перезаписать out.json -> in.json не вариант?

anonymous
(16.11.17 14:42:48 MSK)

Ответ на: комментарий от anonymous 16.11.17 14:42:48 MSK

не то чтобы не вариант, просто неудобно, файлов много и они обрабатываются в цикле по маске, маска имени содержит значимую информацию и терять ее нельзя. т.е. можно переписывать, но нужно в итоге вернуться к изначальному «name.ext» а промежуточные файлы е должны накапливаться

Sintetik
(16.11.17 14:47:12 MSK) автор топика

Ответ на: комментарий от Sintetik 16.11.17 14:47:12 MSK

надо отделить проблему с именем файла, от сути, того как обработать этот файл.

Например, ты в цикле

for fn in *; do
    myscript "${fn}" > "${fn}.modified" && mv -f "${fn}.modified" "${fn}"
done

пробегаешь по файлам в текущем каталоге, и у тебя имя никуда не пропадает. Это позволит кстати не испортить исходный файл при неудачной модификации, и не затрет его.

А вот над myscript надо поработать. Я бы на питоне что-нибудь сделал, думаю, покурив документацию. Раз столкнулся с проблемами в sed на 2GB, значит в стандартных тулзах еще на 31-битное ограничение наткнешься, только нервы потратишь.

Deleted
(16.11.17 15:03:58 MSK)
Последнее исправление: Deleted 16.11.17 15:06:12 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от Sintetik 16.11.17 14:30:51 MSK

нужно использовать стандартные утилиты из поставки линукса

а, это не заметил. Ну, питон довольно стандартен, тем более если это rhel то там он точно уже стоит, правда 2й версии (3й в репах есть). Я бы не стал связываться с программой на С, еслм у тебя нет опыта в этом. Лучше покурить питон и тут тебе советов дадут по улучшению скрипта

Deleted
(16.11.17 15:08:43 MSK)

Ответ на: комментарий от Deleted 16.11.17 15:08:43 MSK

вариант tr -s «\n» "," < in.json >> out.json отработал нормально на 15Gb так что не вижу пока необходимости в писании программ добавил -s чтобы несколько \n схлопывать

осталась проблемка - последнюю \n в конце файла он тоже заменяет на "," ,а это не нужно, пока вылез из положения 1. сначала добавляя [ и ] потом меняю \n и последняя запятая остается за скобкой ], это не красиво, но работает

пока так

sed -i -r '1 s/^/[/;' in.json; echo «]» >> in.json; tr -s «\n» "," < in.json >> out.json; mv out.json in.json;

вот как бы обойтись без переименования?

Sintetik
(16.11.17 15:19:01 MSK) автор топика

Ответ на: комментарий от Sintetik 16.11.17 14:23:05 MSK

одна строка это десятки MGB а вот сам файл десятки Gb это сервер, на нем 32Gb памяти

Важно то, что у тебя на выходе будет одна гигантская строка на десятки гигабайт.

Deleted
(16.11.17 15:27:15 MSK)

Ответ на: комментарий от Deleted 16.11.17 15:27:15 MSK

вариант выше работает, надо только его дорихтовать до красивого sed -i -r '1 s/^/[/;' in.json; echo «]» >> in.json; paste -s -d in.json > out.json; mv out.json in.json;

так решается проблема последней запятой

Sintetik
(16.11.17 15:50:57 MSK) автор топика

Ссылка

sed - Stream EDitor.
Use ex luke.

~~mos~~ ★★☆☆☆
(16.11.17 15:58:09 MSK)

Ссылка

Ответ на: комментарий от Sintetik 16.11.17 15:19:01 MSK

tr -s "\n" "," < in.json

Есть подозрение, что paste -sd ',' in.json может быть шустрее.

massimus ★★★
(16.11.17 20:59:38 MSK)

Можно на flex-e

%%
[\n]+ {printf(",");}
%%
int yywrap(){return 1;}
int main(){while(yylex());return 0;}
/*
flex this_file.l
gcc -o xxx lex.yy.c
./xxx <in_file >out_file
*/

Это про переводы строки на запятую.

anonymous
(16.11.17 21:11:39 MSK)

Ссылка

Ответ на: комментарий от massimus 16.11.17 20:59:38 MSK

ему же надо ...], а с paste последнюю «\n» напряжно, да и что насчет "-s"?

anonymous
(17.11.17 00:53:05 MSK)

Ответ на: комментарий от anonymous 17.11.17 00:53:05 MSK

ему же надо ...]

tr тоже скобки не ставит, я про него говорил.

да и что насчет "-s"?

А вот это я протупил, факт, на пустых строках будет ,,,,

massimus ★★★
(17.11.17 02:09:20 MSK)

Ответ на: комментарий от massimus 17.11.17 02:09:20 MSK

в наших файлах нет пустых строк, поэтому paste работает, проверил

1111

2222 3333

действительно становится 1111,,,2222,3333

пока есть рабочее решение, но нужно правильное

Sintetik
(17.11.17 14:24:17 MSK) автор топика

Ответ на: комментарий от Sintetik 17.11.17 14:24:17 MSK

но нужно правильное

Не менять оригинал, держи

#include <stdio.h>
#include <stdlib.h>
#include <stdbool.h>
#include <assert.h>

int main(int argc, char const *argv[])
{
	
	FILE *pinputf;
	FILE *poutputf;

	if(argc < 2)
	{
		printf("use: %s  input_file ouput_file\n",argv[0]);
		exit(0);
	};

	pinputf   = fopen(argv[1],"r");
	poutputf  = fopen(argv[2],"w");

	assert(pinputf);
	assert(poutputf);

	fprintf(poutputf,"%c", '[' );

	int ch;
	bool separator = false;
	while((ch = fgetc(pinputf)) != EOF)
	{
		if(ch == '\n')
		{
			if(separator == false)
			{
		 		ch = ',';
		 		separator = true;
		 	}else{

		 		continue;
		 	}
		}else{
			separator = false;
		};
		fprintf(poutputf, "%c",ch);
	}

	fseek(poutputf,-1,SEEK_END);
	fprintf(poutputf,"%c",']');

	fclose(pinputf);
	fclose(poutputf);

	return 0;
}

dron@gnu:~$ gcc test.c -o replace ; ./replace big_txt_file ./out_big_txt_file
dron@gnu:~$ cat big_txt_file 
0


111

11




dron@gnu:~$ cat ./out_big_txt_file 
[0,111,11]dron@gnu:~$

~~Dron~~ ★★★★★
(17.11.17 15:59:47 MSK)