Python: простейший алгоритм шифрования

0

1

Имеется текстовый файл, который содержит два слова, например, «cake» и «lie». Последовательность слов может быть разной, например:

cakecakecakelieliecakelielielielieliecakecakecake
lielielielielielieliecakecakelielie

. Идея состоит в том, чтобы создать копию этого файла, где последовательность из слов cake кодируется как «C#», а «lie» - как «L#», где # - количество идущих подряд подобных элементов. Таким образом, указанный образец будет выглядеть примерно так:

C3L2C1L5C3
L7C2L2

Разумеется, файлы будут значительно бОльшими, нежели этот, поэтому потребуется достаточно быстрый алгоритм. Я понимаю, что в целях быстроты мне многие посоветуют написать то же самое на C, но я надеюсь, это можно реализовать довольно удачно и средствами Python. Подскажите, пожалуйста, как сделать это «по уму».

Ссылка

← Портирование на Linux (vcxproj)

PID-файлы - их место в демоне или init-скриптах? →

> «по уму»

Python

How about no.

anonymous
(23.08.11 17:34:57 MSK)

Ссылка

считываешь строчку из файла, высчитываешь регулярными выражениями кол-во cake'ов и lie'ов, и кодируешь в запись вида C%dL%d, записывая в выходной файл. Затем с следующей строчкой так делаешь и т.д.

Ну, я бы так сделал. Возможно быдлокод.

~~chinarulezzz~~ ★★
(23.08.11 17:44:44 MSK)

слов именно два?

~~AIv~~ ★★★★★
(23.08.11 17:47:15 MSK)

Ответ на: комментарий от chinarulezzz 23.08.11 17:44:44 MSK

Ему подряд идущее количество нужно.

Решение втупую: определить, что за слово в начале строки, увеличить счётчик соответствующий, удалить это слово из начала. Если следующее слово такое же - увеличивать текущий счётчик. Если нет - записать C# в результат и завести новый счётчик.
Продолжать, пока строка не опустеет.

schizoid ★★★
(23.08.11 17:48:31 MSK)

это не шифрование, а сжатие данных, в вашем случае, получается, с известным словарем. смотрите, например, Run-length encoding.

hizel ★★★★★
(23.08.11 17:53:10 MSK)

Ты сейчас придумал простейший вариант архивации. Как называется, не помню.

damnemall ★
(23.08.11 17:54:17 MSK)

Ответ на: комментарий от damnemall 23.08.11 17:54:17 MSK

> вариант архивации

Сжатия, то бишь.

damnemall ★
(23.08.11 17:54:45 MSK)

Ссылка

Ответ на: комментарий от damnemall 23.08.11 17:54:17 MSK

Вот оно, кстати.

damnemall ★
(23.08.11 17:55:59 MSK)

Ссылка

Ответ на: комментарий от AIv 23.08.11 17:47:15 MSK

Да.

ghostmansd
(23.08.11 17:59:21 MSK) автор топика

Ответ на: комментарий от hizel 23.08.11 17:53:10 MSK

По Вашей подсказке нашел очень нелохую ссылку: [url]www.builderau.com.au/program/python/soa/Run-length-encoding-in-Python/0,20000... Похоже, вопрос можно считать решенным. Большое спасибо всем!

ghostmansd
(23.08.11 18:05:21 MSK) автор топика

Ссылка

Ответ на: комментарий от schizoid 23.08.11 17:48:31 MSK

знаю что подряд. Но разве эти cake&lie в какой-то определенной размерности не отделяются друг от друга переводом строки? В исходном примере файла что представил ТС перевод строки вроде имеется.

~~chinarulezzz~~ ★★
(23.08.11 18:14:25 MSK)

Ответ на: комментарий от chinarulezzz 23.08.11 18:14:25 MSK

Для твоего алгоритма первая строка выглядела бы как C7L7, а не C3L2C1L5C3, как нужно ТС.
Да и перевод строки в данном случае ни на что не влияет.

schizoid ★★★
(23.08.11 18:17:07 MSK)

Ответ на: комментарий от ghostmansd 23.08.11 17:59:21 MSK

src, dst = open(...), open(...)

ws = ['c...', 'l...']
ns, first = map( len, ws ), ( ws[0][0], ws[1][0] )
FIRST = map( str.upper, first )

for l in src :
    if len(l)==1 : dst.write('\n'); continue 
    n, c, w = len(l)-1, 1, l[0]==first[1] 
    i = ns[w]
    while i<n : 
        if first[w]==l[i] : c += 1; i += ns[w]
        else : dst.write( '%s%d'%( FIRST[w], c ) ); w, c = not w, 1
    dst.write( '%s%d\n'%( FIRST[w], c ) )

Как то так (не тестил). Коряво, и быстрее вряд ли получится... работает только если в файле слова из списка и никаких других. Если таки важна производительность, нужно пошукать решение на С - огно наверняка есть, алгоритм типовой.

~~AIv~~ ★★★★★
(23.08.11 18:20:14 MSK)

Ссылка

Ответ на: комментарий от schizoid 23.08.11 18:17:07 MSK

>Для твоего алгоритма первая строка выглядела бы как С7L7

нет. Выглядела бы как надо при умении пользоваться регулярками.

~~chinarulezzz~~ ★★
(23.08.11 18:31:22 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Портирование на Linux (vcxproj)

Development

PID-файлы - их место в демоне или init-скриптах? →

Похожие темы