python скрипт: подсчитать частоту перехода состояний

1

1

Disclaimer: я только начал изучать питон.

Имеется текстовый файл следующего содержания (в качестве примера):

A-B-C-D
A-B-D-E
A-C-E
A-B-C-E
A-B
B-E
A-D-E
B-C
...

В каждой строке A,B,C,D,E — это некие состояния, разделенные делимитером '-'. Я пишу скрипт на питоне который должен подсчитать частоту перехода состояний равно как и количество входных и выходных состояний, например:

A входное  6 раз
E выходное 5 раз
A->B  4 раза
B->C  3 раза
C->D  1 раз
и т.д.

Подсчитать частоту A,B,C,D несложно, но мне нужно именно переходы и одного состояния в другое.

Вот что я соорудил — входной файл читается в строку, далее эта строка режется splitlines() построчно и кладется в список. Данный список подается на вход вот этой функции которая все считает:

def count_states(lines):
    states = dict()
    for l in lines:
        words = l.split('-')
        if not words[0] in states:
            states[words[0]] = 1
        else:
            states[words[0]] += 1
        for w in zip(words, words[1:]):
            if not w in states:
                states[w] = 1
            else:
                states[w] += 1

        if not w[-1] in states:
            states[w[-1]] = 1
        else:
            states[w[-1]] += 1

    return states

Вроде бы все считается правильно. Но можно ли написать компактнее и более «в духе» питона?

Спасибо.

Ссылка

← Манипулятор потока

f(f(f(x))) - как записать короче →

Не могу ничего сказать про «дух питона», но код так себе. Из-за того что у этой процедуры нет никакого практического приминения, у нее нет никакой структуры. За это я не люблю все эти «абстрактные задания». Что такое массив states? Что в нем содержится? Как им пользоваться? Почему там половина ключей - элементы, а половина - таплы? Если бы ты впоследствии пытался сделать с ним хоть что-нибудь полезное, то сразу бы понял что так делать не надо.

А вообще, код рабочий — и сойдет. На джуна сгодится, а там тебя уже ревьюверы сношать будут.

morse ★★★★★
(30.10.19 00:36:06 MSK)

Ссылка

Не особо вникал посмотри на https://docs.python.org/3/library/collections.html#collections.Counter

ggrn ★★★★★
(30.10.19 01:31:51 MSK)

Ссылка

Три if’а можно убрать, если использовать defaultdict.

>>> from collections import defaultdict
>>> 
>>> a = defaultdict(lambda: 1)
>>> dict(a)
{}
>>> a[1] += 1
>>> a[2] += 2
>>> dict(a)
{1: 2, 2: 3}
>>>

i-rinat ★★★★★
(30.10.19 01:42:02 MSK)
Последнее исправление: i-rinat 30.10.19 01:46:23 MSK (всего исправлений: 2)

Ответ на: комментарий от i-rinat 30.10.19 01:42:02 MSK

In [1]: from collections import Counter                                                                                                                                                

In [2]: c = Counter()                                                                                                                                                                  

In [3]: c['A-B'] += 1                                                                                                                                                                  

In [4]: c                                                                                                                                                                              
Out[4]: Counter({'A-B': 1})

~~WitcherGeralt~~ ★★
(30.10.19 01:53:36 MSK)

На логику не смотрел (но по-моему у тебя там не различаются входные и выходные состояния), а насчёт компактности - открой для себя collections.

from collections import defaultdict 

states = defaultdict(int)
states['A', 'B'] += 1
states['B', 'C'] += 1
states['C', None] += 1

for (from_, to), count in states.items():
    print(from_, '→', to, ':', count)

A → B : 1
B → C : 1
C → None : 1

Ещё лучше тут подходит collections.Counter.

slovazap ★★★★★
(30.10.19 02:14:22 MSK)
Последнее исправление: slovazap 30.10.19 02:16:43 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от WitcherGeralt 30.10.19 01:53:36 MSK

c[‘A-B’] += 1

Вот эта часть выглядит кривой, потому что считатель (Counter) и сами данные смешаны в одно. Код поймут, потому что знают, что Counter это наследник dict, и вести себя будет похожим образом. Но криво же.

i-rinat ★★★★★
(30.10.19 02:14:48 MSK)

Ссылка

Строки всегда упорядоченные? Статистика нужна только по всему тексту или по каждой «ноде» тоже?

vvn_black ★★★★★
(30.10.19 08:18:30 MSK)

Ссылка

Но можно ли написать компактнее и более «в духе» питона?

Так... Питон же у нас не про оптимизацию? ) Тогда можно так:

text = '''
A-B-C-D
A-B-D-E
A-C-E
A-B-C-E
A-B
B-E
A-D-E
B-C
'''

from collections import Counter
from itertools import chain

data = list(map(lambda x: x.split('-'), text.split()))
nodes = sorted(set(chain(*data)))

def node_count_first(node, data):
    return len(list(filter(lambda x: x[0] == node, data)))

def node_count_last(node, data):
    return len(list(filter(lambda x: x[-1] == node, data)))

def node_transitions(node, data):
    return filter(
        len,
        map(lambda x: node in x and f'{node}{x[x.index(node) + 1]}' or '',
            filter(lambda x: x[-1] != node, data) ))


for node in nodes:
    print(f'{node}, first: {node_count_first(node, data)}, '
          f'last: {node_count_last(node, data)}')

states = Counter(chain(*map(lambda x: node_transitions(x, data), nodes)))
print(states)

A, first: 6, last: 0
B, first: 2, last: 1
C, first: 0, last: 1
D, first: 0, last: 1
E, first: 0, last: 5
Counter({'AB': 4, 'BC': 3, 'CE': 2, 'DE': 2, 'AC': 1, 'AD': 1, 'BD': 1, 'BE': 1, 'CD': 1})

vvn_black ★★★★★
(30.10.19 09:24:26 MSK)

zip(words, words[1:])

Так, полпрограммы ты написал. Осталось отшелушить все остальное и будет

collections.Counter(zip(words, words[1:]) для одной строки или

seqs = [line.split('-') for line in ['A-B-C-A-B', 'A-B']]
transitions = [zip(seq, seq[1:]) for seq in seqs]
collections.Counter(itertools.chain(*transitions))

для нескольких

t184256 ★★★★★
(30.10.19 10:19:18 MSK)

from collections import Counter

def count_states(lines):
	states = Counter()
	for line in lines:
		pr_line = line.replace('-', '')
		states.update(pr_line)
		states.update([f'{p}-{с}' for p, с in zip(pr_line[:-1], pr_line[1:])])
	return states

Как-то так.

sekekeke
(30.10.19 12:46:10 MSK)

Ответ на: комментарий от vvn_black 30.10.19 09:24:26 MSK

ну такое себе. понапхал куда надо и не надо этих своих фильтров с лямбдами и в итоге нихрена непонятно, надо вчитываться.

anonymous
(30.10.19 17:21:10 MSK)

Ссылка

Ответ на: комментарий от t184256 30.10.19 10:19:18 MSK

Так, полпрограммы ты написал. Осталось отшелушить все остальное и будет

Спасибо, элегантно и кратко! Только интерпретатор ругался, я немного поменял код:

from collections import Counter
from itertools import chain

def xstates(lines):
    seqs = [l.split('-') for l in lines]
    x = [zip(seq, seq[1:]) for seq in seqs]
    p = Counter(chain(*x))
...

А вот как подсчитать еще начальные и конечные состояния и добавить их в начало `p` и в конце. Пример:

A-B-C-D
A-B-D-E
A-C-E
A-B-C-E
A-B
B-E
A-D-E
A-C

состояние A -- 7 раз
состояние E -- 4 раза
состояние D -- 1 раз
и пр.

cruz7 ★★
(30.10.19 18:17:43 MSK) автор топика

Ответ на: комментарий от sekekeke 30.10.19 12:46:10 MSK

states.update([f'{p}-{с}' for p, с in zip(pr_line[:-1], pr_line[1:])])

Питон ругается на эту строчку:

  states.update([f'{p}-{c}' for p, c in zip(pr_line[:-1], pr_line[1:])])
                          ^
SyntaxError: invalid syntax

cruz7 ★★
(30.10.19 18:40:16 MSK) автор топика

Ответ на: комментарий от cruz7 30.10.19 18:40:16 MSK

тут надо питон версии 3.6+

anonymous
(30.10.19 19:31:46 MSK)

Ссылка

Ответ на: комментарий от cruz7 30.10.19 18:40:16 MSK

states.update(['{0}-{1}'.format(p, c) for p, c in zip(pr_line[:-1], pr_line[1:])])

Анонимус прав. Поправил, сейчас должно работать.

sekekeke
(30.10.19 20:41:57 MSK)

Ссылка

Если задача не учебная, а хоть сколько то боевая, затолкай данные в реляционную СУБД и играйся с ними сколько влезет.

olelookoe ★★★★
(30.10.19 20:50:36 MSK)

Ссылка

Ответ на: комментарий от cruz7 30.10.19 18:17:43 MSK

Я не очень понимаю, как их добавить в p, если p - переходы. Вместе с остальным как (None, 'A') и ('D', None)? Тогда (навскидку):

from collections import Counter
from itertools import chain

def xstates(lines):
    seqs = [[None] + l.split('-') + [None] for l in lines]
    x = [zip(seq, seq[1:]) for seq in seqs]
    p = Counter(chain(*x))

Отдельно? Тогда Counter([seq[0] for seq in seqs]), Counter([seq[-1] for seq in seqs])

t184256 ★★★★★
(30.10.19 22:31:28 MSK)

Ссылка

компактнее
«в духе»

Тебе либо одно, либо другое. Все питонисты, которых я видел, пишут в столбик, много и «понятно», а двойной map их повергает в ужас.

anonymous
(30.10.19 23:08:53 MSK)

Ответ на: комментарий от anonymous 30.10.19 23:08:53 MSK

плюсую вот этого анонимуса.

Это и есть «дух питона» - вот такой длинный, минимально абстрактный, и даже тупой, код.

lovesan ★★☆
(31.10.19 07:19:57 MSK)

Ссылка

Ответ на: комментарий от t184256 30.10.19 10:19:18 MSK

from collections import Counter
from itertools import chain

def xstates(lines):
    seqs = [l.split('-') for l in lines]
    x = [zip(seq, seq[1:]) for seq in seqs]
    p = Counter(chain(*x))
...

Для входного массива:

A-B-C-D
A-B-D-E
A-C-E
A-B-C-E
A-B
B-E
A-D-E
A-C

на выходе получается:

Counter({('A', 'B'): 4, ('D', 'E'): 2, ('B', 'C'): 2, ('C', 'E'): 2, ('A', 'C'): 2, ('C', 'D'): 1, ('A', 'D'): 1, ('B', 'E'): 1, ('B', 'D'): 1})

Не пойму, по какой системе формируется этот выходной словарь? Или же он уже отсортирован по value? Можно ли получить несортированный?

cruz7 ★★
(01.11.19 00:23:00 MSK) автор топика

Ответ на: комментарий от cruz7 01.11.19 00:23:00 MSK

Предположим, что он несортированный. Что хотел-то?

t184256 ★★★★★
(01.11.19 09:20:13 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Манипулятор потока

Development

f(f(f(x))) - как записать короче →

Похожие темы