лиха беда начало

1

2

очевидно тема contest востребована по весне, но не стоит ограничивать её С, пусть уж будут все :) Пусть будет задача требующая либо глубокой теор.подготовки либо опыта копания си-шных недр, а лучше и того и другого. Либо неординарного мышления, итого:

предполагаемая задача:

создать утилиту degrep которая делает вывод следующего за ней grep в тем-же аргументом пустым.

критерии успеха: `cat $file | degrep $pattern | grep $pattern` всегда пуст вне зависимости от pattern и для любых файлов. pattern соответсвует POSIX и не эквивалентна .*
критерий сравнения: разница(например xdelta) между `cat $file` и `cat $file | degrep $pattern` минимальна.
критерий серьёзной заявки - софтинка должна давать лучший результат чем grep -v pattern и sed s/pattern// (то есть лучше тупой инверсии условия/удаление подстрок)
критерий победы близкой к абсолюту: утилита `undegrep $pattern` восстанавливающая исходный текст файла после degrep. То есть изменения внесённые degrep каким-то образом обратимы.
требований по скорости не предъявляется - программа должна завершаться за разумное время. Скажем не больше 20 мин на текст не более 10К
абсолютный абсолют - degrep и undegrep одна и та-же программа. В теории это возможно.

PS. у меня готовых решений нет :( буду на общих условиях

PPS. приветствуются даже подходы к её решению, без приложения кодов :) очень лихая вводная получилась

Ссылка

← Android dev, UI

Надо проверить графики Герба Саттера про префетчинг →

Вырожденный случай:

main(){}

PolarFox ★★★★★
(06.04.14 02:33:21 MSK)

Ссылка

критерий серьёзной заявки - софтинка должна давать лучший результат чем grep -v pattern и sed s/pattern// (то есть лучше тупой инверсии условия/удаление подстрок)

Вот это не понял. По условию ведь оно самое и есть?

lovesan ★★☆
(06.04.14 02:34:59 MSK)

Ответ на: комментарий от lovesan 06.04.14 02:34:59 MSK

Не, он хочет более хитрого, так исказить строку, что она не пройдёт через grep, но чтобы потом undegrep её восстановил.

mky ★★★★★
(06.04.14 02:39:39 MSK)

Ответ на: комментарий от lovesan 06.04.14 02:34:59 MSK

Ну из условия, насколько я понял, тебе не запрещено портить файл, т.е. как-то преобразовывать искомую строку да так, что бы её потом однозначно можно было найти и восстановить.

mix_mix ★★★★★
(06.04.14 02:39:54 MSK)

Ссылка

Ответ на: комментарий от mky 06.04.14 02:39:39 MSK

Ну тогда алгоритм такой:

Строим дерево для регекса, и проходим его допустим в глубину, находим все верхние узлы, для которых множество FIRST не равно любому символу или пустой строке, соединяем эти множества, получаем FIRST-множество букв всех первых непустых и не ".*" верхних узлов, сортируем его, вычисляем букву X, которая имеет код скажем +1 от последней. Добавляем в строку после каждой буквы из этого множества букву X, все grep обосрется.

Обратный алгоритм думаю понятен.

А, ну и если какой-либо из листьев ast регекса оказался пустым или .*, говорим - извините, регекс не подходит.

lovesan ★★☆
(06.04.14 02:58:43 MSK)

Ответ на: комментарий от lovesan 06.04.14 02:58:43 MSK

Добавляем в строку после каждой буквы из этого множества букву X, все grep обосрется.

на «a.» какой получится X и куда его добавить в классический «abracadabra» ?

MKuznetsov ★★★★★
(06.04.14 03:10:50 MSK) автор топика

Ответ на: комментарий от MKuznetsov 06.04.14 03:10:50 MSK

хм, ну да... логичнее тогда не добавлять после, а наоборот, заменять на X а саму X заменять на X+1 X+1 на X+2 и т.д.

lovesan ★★☆
(06.04.14 03:17:22 MSK)

Ответ на: комментарий от lovesan 06.04.14 03:17:22 MSK

на X+код заменять

lovesan ★★☆
(06.04.14 03:19:25 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 06.04.14 03:10:50 MSK

Короче суть в том, чтобы grep обосрался на FIRST-множестве

lovesan ★★☆
(06.04.14 03:20:01 MSK)

Лучше сразитесь в https://helloworldopen.com/, время на регистрацию еще есть.

Языки: C, C# / Mono, Clojure, CoffeeScript, Haskell, Java, JavaScript, Lua, Python, Ruby, Scala, Go

zinfandel ★★
(06.04.14 03:36:32 MSK)

Ответ на: комментарий от zinfandel 06.04.14 03:36:32 MSK

там же небось умным надо быть

qnikst ★★★★★
(06.04.14 03:37:49 MSK)

Ответ на: комментарий от lovesan 06.04.14 03:20:01 MSK

на X+код заменять

и следить чтобы X+N не попал в FIRST, а X+256 заменить обратно на X :) и полностью перелопатить весь файл до байта. Критерий минимальных правок xdiff не выдержан

Короче суть в том, чтобы grep обосрался на FIRST-множестве

для каждого отдельного regex может быть построен более оптимальный вариант и очевидно исходя из дерева/автомата regex можно как-то его получать в общем виде.

ps. я теги lisp,haskell,prolog поставил потому как считаю в итоге упрётся в поиск оптимума, а они это вроде как умеют :)

MKuznetsov ★★★★★
(06.04.14 03:40:45 MSK) автор топика

Ответ на: комментарий от qnikst 06.04.14 03:37:49 MSK

Вроде на участие таких критериев нет, и взноса нет. Команды макс. три человека. Естественно если ты «не умный», то будешь в хвосте. Но можно ведь написать бота (на Хаскелле) который доедет до финиша, а потом смеятся над лоравскими Сишниками (у которых переполнился буфер, или какая-другая низкоуровневая каракатица) и Яваскриптерами (у которых вылез рантайм еррор, вызваный бага которого бы нашел компилятор).

zinfandel ★★
(06.04.14 03:45:00 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 06.04.14 03:40:45 MSK

для каждого отдельного regex может быть построен более оптимальный вариант

Минимизированный DFA - как раз и есть оптимум для конкретного регекса

lovesan ★★☆
(06.04.14 03:45:29 MSK)

Ответ на: комментарий от MKuznetsov 06.04.14 03:40:45 MSK

X+256 заменить обратно на X

Да не, просто по модулю

Критерий минимальных правок xdiff не выдержан

Ну так а с чего ты взял что есть еще что-то более минимальное?

lovesan ★★☆
(06.04.14 03:46:55 MSK)

Ссылка

То есть изменения внесённые degrep каким-то образом обратимы.

Очевидно же, что это невозможно.

anonymous
(06.04.14 04:02:18 MSK)

Ссылка

Ответ на: комментарий от lovesan 06.04.14 03:45:29 MSK

Минимизированный DFA - как раз и есть оптимум для конкретного регекса

дык то понятно :-) вопрос в том чтобы внести минимальные правки во входящий поток чтоб DFA представляющий регекс сфейлился (и очевидно лучше в последний момент).

То есть правки в первую очередь минимальны, а во вторую уже обратимы. а то всё очень просто - выбрать пару символов, в любых сочетаниях не проходящих регекс и перекодить файл в «такой-вот-бинарный-вид» :-)

MKuznetsov ★★★★★
(06.04.14 04:06:40 MSK) автор топика

Ответ на: комментарий от MKuznetsov 06.04.14 04:06:40 MSK

То есть правки в первую очередь минимальны, а во вторую уже обратимы.

Это взаимопротиворечивые условия. Минимальные правки не будут обратимы. Если хочется обратимости - придется разрешить неминимальные правки.

anonymous
(06.04.14 07:30:58 MSK)

Ссылка

В теории это возможно

Хотелось бы увидеть формальное доказательство

buddhist ★★★★★
(06.04.14 08:47:20 MSK)

Ссылка

Тривиальное

bash+sed+enc, строк в 30 можно уложиться. Критерий минимальности отличий игнорируется.

1. находим экспериментальным путём строку, не соответствующую шаблону(например, перебираем длинные хеши шаблона с последоватльной затравкой), используем в качестве маркера и/или ключа. 2. строки, соответствующие шаблону прогоняем через «openssl enc», и оборачиваем маркерами, повторяем до тех пор, пока результат шифрования соответствует шаблону.

В обратную сторону очевидно.

DonkeyHot ★★★★★
(06.04.14 11:26:45 MSK)

degrep и undegrep одна и та-же программа. В теории это возможно.

Нет, невозможно. Потому что по условию

чтоугодно | degrep $pattern | grep $pattern

должно выдавать пустой результат, и, в частности,

cat $file | degrep $pattern | degrep $pattern | grep $pattern

должно быть пустым. Если бы undegrep и degrep были одной программой, то последнее было бы эквивалентно

cat $file | grep $pattern

Есть, конечно, объездной путь — сделать undegrep ссылкой на degrep и анализировать argv[0]. Но это суксь.

Miguel ★★★★★
(06.04.14 12:55:13 MSK)

Ответ на: комментарий от Miguel 06.04.14 12:55:13 MSK

undegrep ссылкой на degrep и анализировать argv[0]

degrep -v же

KennyMinigun ★★★★★
(06.04.14 13:14:53 MSK)

Ссылка

Ответ на: Тривиальное от DonkeyHot 06.04.14 11:26:45 MSK

Это сначала нужно определить, что вобще есть строки, не соответствующие шаблону. Ведь можно написать ″.″, а можно ″[1]|[^1]″.

mky ★★★★★
(06.04.14 21:41:20 MSK)

Ответ на: комментарий от Miguel 06.04.14 12:55:13 MSK

Есть, конечно, объездной путь — сделать undegrep ссылкой на degrep и анализировать argv[0].

Наверное, ТС это и подразумевал, как раньше был gzip/gunzip. Теперь, правда, gunzip стал bash-скриптом, непонятно зачем. Или это только в RHEL так?

mky ★★★★★
(06.04.14 21:50:22 MSK)

Ссылка

Ответ на: комментарий от mky 06.04.14 21:41:20 MSK

определить, что вобще есть строки, не соответствующие шаблону

Есть(не всегда) «решение» а есть «грязный хак». Второе, часто, сильно дешевлее и вполне удовлетворяет житейские потребности, но подходит далеко не для каждого соревнования и совсем не годится для математики. Из ТЗ не очень понятно, что задача из последних.

DonkeyHot ★★★★★
(07.04.14 11:22:44 MSK)