Замена в длинной строке.

0

2

Приветствую. Имеется текстовый файл с одной строкой длиной в десяток миллионов символов. Нужно найти в строке набор символов вида:
«nw758» X type:test=«string»><test:q>00</test:q>
и заменить на:
«nw758» X type:test=«string»><test:q>99</test:q>
Проблема в том, что X - это произвольный набор символов, но длина его всегда от 1 до 935 символов (если не учитывать что длина ограничена 935 символами то могут измениться те данные, которые не нужно было изменять). Как это реализовать используя sed? Или в данном случае лучше посмотреть в сторону другого инструмента?

Ссылка

← Vmware 14 on Mint19

Из-за DBus не запускается гномософт. →

А в чём проблема? .+ или там .{1,935} не подходит?

anonymous
(14.07.18 23:10:47 MSK)

Ссылка

Если у вас «00</test:q>» всегда одинаковое - можно просто убрать количество этих символов в конце строки да добавить что нужно.

micronekodesu ★★★
(15.07.18 05:58:37 MSK)

Ссылка

Попробуй:

sed -e 's/\<test\:q\>00\<\/test\:q\>/\<test\:q\>99\<\/test\:q\>/g' file.in>file.out

kickass ★
(15.07.18 06:47:10 MSK)

Ссылка

micronekodesu, kickass, а если нужно именно с "nw758"? Мне кажется, задача не так проста, как кажется, иначе вопроса бы не стояло.

r3lgar ★★★★★
(15.07.18 08:34:31 MSK)

Если вопрос вызван сомнениями вида «а потянет ли sed такую длинную строку», то стоит просто проверить. А так, можно awk взять и вручную всё сделать

Deleted
(15.07.18 08:34:52 MSK)

Ссылка

sed -ne 's/\("nw758"\)\(.*\)\(type:test="string"><test:q>\)\(00\)\(<\/test:q>\)/\1\2\399\5/g' file.in>file.out

kickass ★
(15.07.18 09:42:32 MSK)

Ответ на: комментарий от r3lgar 15.07.18 08:34:31 MSK

Да, нужно именно набор символов, начинающийся с

«nw758»

и в котором дальше идёт 1-935 символов а за ним

 type:test=«string»><test:q>

. Т.е. не просто текст в тэге, а текст в тэге, которому предшествует определённый текст, часть которого известна, часть неизвестна.

zarat03
(15.07.18 17:17:30 MSK) автор топика

Ответ на: комментарий от kickass 15.07.18 09:42:32 MSK

Оно заменит ВСЕ вхождения, ибо найдёт первый \1, последний \5, и заменит все \4 (который вообще матчить не было смысла) на 99. Кури на тему жадности sed.

r3lgar ★★★★★
(15.07.18 17:32:31 MSK)

Регулярные выражения такое не могут. PCRE должен с его хитрыми группами с предпросмотром, но это ненастоящие регэкспы.
sed, насколько помню, не умеет в pcre. Поэтому либо perl, либо инстумент, который может более мощные грамматики, чем регексп.

anonymous
(15.07.18 19:16:31 MSK)

Ссылка

Ответ на: комментарий от zarat03 15.07.18 17:17:30 MSK

Опять не понял, эти «1-935 символов» надо менять или они остаются? В любом случае, у вас известно количество символов в начале строки и в конце строки, между ними - то, что нужно заменить, я не могу понять почему не хотите плясать от этого.

А вообще - если у вас там xml то возьмите нормальный парсер.

micronekodesu ★★★
(15.07.18 19:44:39 MSK)

Ответ на: комментарий от micronekodesu 15.07.18 19:44:39 MSK

возьмите нормальный парсер

Ну вот, взял и всё испортил.

anonymous
(15.07.18 20:07:39 MSK)

Ссылка

Ответ на: комментарий от r3lgar 15.07.18 17:32:31 MSK

echo '"nw758" сдесь символы type:test="string"><test:q>00</test:q>' | sed -e 's/\(\"nw758\"\)\(.*\)\(type:test="string"><test:q>\)\(00\)\(<\/test:q>\)/\1\2\399\5/g'

kickass ★
(15.07.18 22:55:41 MSK)

Ответ на: комментарий от kickass 15.07.18 22:55:41 MSK

Проблема в том, что строка сдесь символы не должна быть больше 935 символов. Т.е. если между nw758 и test:q > ~1000 символов, то значение 00 не надо изменять. В Вашем примере это не учитывается (проверял на реальном файле).

zarat03
(15.07.18 23:42:47 MSK) автор топика

Ответ на: комментарий от micronekodesu 15.07.18 19:44:39 MSK

Все символы, кроме 00 остаются. 00 меняется на 99.

zarat03
(15.07.18 23:43:20 MSK) автор топика

Ссылка

Ответ на: комментарий от r3lgar 15.07.18 17:32:31 MSK

Оно заменит ВСЕ вхождения, ибо найдёт первый \1, последний \5, и заменит все \4 (который вообще матчить не было смысла) на 99. Кури на тему жадности sed.

Жадность ограничена. Как только в маску попадет type:test=«string»><test:q>, сработает 3 match и закроется 2, дальше заработает 4, ограниченный 5 маской и своей. Он закроется, далее 5. Как только в 5 попадет <\/test:q> тоже закроется. Т.к. вся фигня собрана, всё вылетает в >file.out с заменой чего надо.

Если есть ещё символы, то всё заного, т.к. /g

Или я ошибаюсь?

Если вместо sed -e написать perl -pe то будет также работать.

kickass ★
(15.07.18 23:48:45 MSK)