Как отредактировать только часть файла и не трогать остальную?

0

1

Есть гигантских размеров (порядка 125 Гб) текстовый файл, в первых 1000 строках которого нужно сделать замену, не перезаписывая остальные 10^9 или сколько там строк.
Вопрос: как это сделать sed'ом, а если не sed'ом, то чем?
Дело в том, что sed, судя по всему, в режиме -i тупо копирует файл строка за строкой, а под конец «магически» заменяет старый файл новым. Соответственно, если в sed сделать q, то файл оборвётся на той строке, на которой был сделан q, а если q не делать, то придётся ждать до посинения, пока sed героически перезапишет 150Гб на диске. Ну ок, предположим, что для дозаписи данных (а именно это, к сожалению, мне и нужно), так или иначе всё равно придётся перекорячить весь файл, но вот а если бы мне нужно было, скажем, символ B на символ А в первых 200-ах строках поменять - ведь для этого очевидным образом перезапись всего файла не требуется: достаточно лишь прочитать первые 200 строк и поменять один байтик на другой...

Ссылка

← Прототип сервиса уже вчера

имитация электрических схем →

если замена не меняет размер, то можно dd+sed+dd

~~sdio~~ ★★★★★
(13.02.14 17:53:25 MSK)

Где ты такой файл откопал?

~~cinyflo~~ ★★★★★
(13.02.14 17:53:28 MSK)

Думаю, такое можно провернуть в питоне с модулем mmap. в детали сейчас вникать не могу, слишком занят.

anonymous
(13.02.14 17:57:30 MSK)

Ссылка

Ответ на: комментарий от cinyflo 13.02.14 17:53:28 MSK

Это код на перле.

NeXTSTEP ★★
(13.02.14 18:01:59 MSK)

Ответ на: комментарий от NeXTSTEP 13.02.14 18:01:59 MSK

код на перле … 125 Гб … код на перле … 125 Гб … МАМА! Мне это даже представить страшно… o_O

Таки откусить кусок с начала dd, поправить его и прицепить обратно. Ещё как вариант — задействовать ed.

beastie ★★★★★
(13.02.14 18:11:44 MSK)

Я бы на перле простым скриптиком читал бы файл построчно и менял то, что там надо. Там это легко делается без занесения в память всего файла.

shell-script ★★★★★
(13.02.14 18:19:05 MSK)

Ссылка

Ответ на: комментарий от NeXTSTEP 13.02.14 18:01:59 MSK

искусственный разум для захвата мира???

~~rogerw~~ ★
(13.02.14 18:19:22 MSK)

Ссылка

Ответ на: комментарий от beastie 13.02.14 18:11:44 MSK

Если это так, то там на регекспах закодирована вся вселенная. :)

shell-script ★★★★★
(13.02.14 18:21:33 MSK)

Ответ на: комментарий от shell-script 13.02.14 18:21:33 MSK

Ты представляешь, сколько оно его шустприть будет?

Говорят vim с LargeFile плагином может такого монстра осилить. → http://stackoverflow.com/questions/1591723/linux-text-editor-for-working-with...

beastie ★★★★★
(13.02.14 18:32:29 MSK)
Последнее исправление: beastie 13.02.14 18:34:51 MSK (всего исправлений: 1)

Ответ на: комментарий от sdio 13.02.14 17:53:25 MSK

если замена не меняет размер, то можно dd+sed+dd

угу. Тоже хотел написать.

emulek ★
(13.02.14 18:36:42 MSK)

Ссылка

Дело в том, что sed, судя по всему, в режиме -i тупо копирует файл строка за строкой, а под конец «магически» заменяет старый файл новым.

так и есть. Это ещё и самый быстрый вариант, т.к. размер начала изменяется, и файл всё равно надо весь переписывать. Если не надо, то отрежь dd нужное.

emulek ★
(13.02.14 18:39:06 MSK)

Ссылка

head -1000 file | sed 's/ONE/TWO/g' > out
tail -n+1001 file >> out

kovrik ★★★★★
(13.02.14 18:45:37 MSK)

patch

pony
(13.02.14 18:49:13 MSK)

Ссылка

patch ?

anonymous
(13.02.14 18:50:52 MSK)

Ссылка

ведь для этого очевидным образом перезапись всего файла не требуется

Только в этом одном случае (поменять N символов на N других), только если количество байтов на эти символы в данной кодировке совпадает, это необходимо только если у тебя откуда-то возник текстовый файл на 125 Гб... Короче, множество предположений, которые в 99.99% случаев неверны.

Может, написать свой велосипед на каком-нибудь языке программирования? В конце концов, это не так сложно. python + mmap, в самом деле.

proud_anon ★★★★★
(13.02.14 18:57:40 MSK)
Последнее исправление: proud_anon 13.02.14 18:59:49 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от kovrik 13.02.14 18:45:37 MSK

Так это всё равно перепишет хвост файла.

proud_anon ★★★★★
(13.02.14 18:59:33 MSK)

Ответ на: комментарий от proud_anon 13.02.14 18:59:33 MSK

Зато просто. Вообще, сама задача странная какая-то.

kovrik ★★★★★
(13.02.14 19:13:37 MSK)

Ответ на: комментарий от NeXTSTEP 13.02.14 18:01:59 MSK

Что этот скрипт делает???

anonymous
(13.02.14 19:20:43 MSK)

Ответ на: комментарий от anonymous 13.02.14 19:20:43 MSK

Что этот скрипт делает???

ИИ для евангелиона. А ты что подумал?

anonymous
(13.02.14 19:33:59 MSK)

Ответ на: комментарий от anonymous 13.02.14 19:33:59 MSK

Там вместо ИИ души людей. Скорее всего эти 125ГБ сгенерировал другой скрипт.

anonymous
(13.02.14 19:58:39 MSK)

Ответ на: комментарий от kovrik 13.02.14 19:13:37 MSK

Вообще, сама задача странная какая-то.

Почему странная? Есть гигантский SQL dump и в нём нужно поправить всего-то пару определений create table. Причём дамп размером 150Гб лежит на разделе размером 200Гб и никаких других разделов не предусмотрено. Что делать?

Я пока что решил проблему с помощью sed'а для копирования «верхушки» файла в отдельный файл и tail -n +N - для оставшейся части. В принципе, так работает, но только для случая, когда интересующие строки находятся в относительно небольшом куске файла где-то «на самом верху».
Кстати, кто-нибудь в курсе, как сделаьт так, чтобы чудесный mysqldump всё-таки свои CREATE TABLE писал не где-то посреди INSERT'ов, а сверху? Мне для этого пришлось изрядно поизвращаться и написать целый мега-скрипт... Вот: https://github.com/DRVTiny/bash4-helperScripts/blob/master/dumeme

DRVTiny ★★★★★
(13.02.14 20:02:48 MSK) автор топика
Последнее исправление: DRVTiny 13.02.14 20:07:02 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous 13.02.14 19:58:39 MSK

It's SQL, Luke!

DRVTiny ★★★★★
(13.02.14 20:10:13 MSK) автор топика

Ссылка

Ответ на: комментарий от DRVTiny 13.02.14 20:02:48 MSK

Есть гигантский SQL dump

А, ну это еще норм, я уже думал XML

goingUp ★★★★★
(13.02.14 20:12:57 MSK)

Ссылка

Ответ на: комментарий от DRVTiny 13.02.14 20:02:48 MSK

200 гигов SQL dump хммм что то уже здесь не так =)

А можно подробности?

MikeDM ★★★★★
(13.02.14 20:27:04 MSK)

Ответ на: комментарий от beastie 13.02.14 18:32:29 MSK

Так в условии ТС надо прошерстить тысячу строк вначале файла. Это вообще ни о чём. Секунды.

P.S. за плагинчик к vim'у спасибо, думаю пригодится.

shell-script ★★★★★
(13.02.14 21:34:01 MSK)

Ссылка

Ответ на: комментарий от DRVTiny 13.02.14 20:02:48 MSK

Можно сделать два дампа.

Первый mysqldump --no-data, тут будет структура. Второй mysqldump --no-create-info, тут данные. По желанию, их можно потом объединить.

Ну или же вообще можно каждую таблицу в отдельный файл.

shell-script ★★★★★
(13.02.14 21:38:54 MSK)

Ответ на: комментарий от shell-script 13.02.14 21:38:54 MSK

Плюсую этого господина.

kovrik ★★★★★
(13.02.14 22:05:40 MSK)

Ответ на: комментарий от kovrik 13.02.14 22:05:40 MSK

Товарищ весьма неглуп...

DRVTiny ★★★★★
(14.02.14 00:30:07 MSK) автор топика

Ссылка

Ответ на: комментарий от MikeDM 13.02.14 20:27:04 MSK

Это непартиционированная база, куда Заббикс интенсивно пишет всякий мусор, который ни один человек в здравом уме и твёрдой памяти проанализировать не в состоянии. Сейчас стоит задача мусор этот партиционировать.

DRVTiny ★★★★★
(14.02.14 00:36:37 MSK) автор топика

Ссылка

Ответ на: комментарий от DRVTiny 13.02.14 20:02:48 MSK

mysqldump умеет писать данные каждой таблички в отдельный файл. В случае таких огромных дампов, наверное, имеет смысл.

undertaker ★★
(18.02.14 12:15:19 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Прототип сервиса уже вчера

Development

имитация электрических схем →

Похожие темы