Как посчитать количество дублей в столбце не меняя порядка строк

0

1

Подскажите как посчитать количество одинаковых значений в столбце так, чтобы в итоге получился список строк в том же порядке и без удаленных дубликатов. sort file | uniq -c меняет порядок строк и удаляет дубликаты. попробовал пронумеровать строки cat или nl -ba file , чтобы потом можно было восстановить порядок, но все равно не понимаю как посчитать повторяющиеся строки без изменения первоначального порядка строк в столбце.

– Нужно из вот такого:
текст1
текст2

текст1

текст1
текст2
текст3

– Сделать вот такое
текст1;3
текст2;2
;2
текст1;3
;2
текст1;3
текст2;2
текст3;1

Пустые строки тоже нельзя удалять, их нужно тоже посчитать.

Был бы благодарен за помощь!!

Ссылка

← eth0@if24 это что за «if»?

Как лучше всего звонить и принимать звонки с линукса через 3G модем? →

Свой код показывай сначала.

anonymous
(07.06.21 21:57:55 MSK)

Ответ на: комментарий от anonymous 07.06.21 21:57:55 MSK

nl -ba col4.tmp > file1.tmp

sort -k2 file2.tmp | uniq -f2 -c > file3.tmp

таким образом дубли удаляются

alexross
(08.06.21 00:47:39 MSK) автор топика

Ссылка

Конвертишь в csv. Загружаешь в SQL DB. Делаешь нужные запросы.

anonymous
(08.06.21 01:44:45 MSK)

Ссылка

питон, сознаешь defaultdict с int, открываешь файл, построчно читаешь, делаешь инкремент значения по ключу в качестве которого выступает считанная строка в конце выводишь пары ключ, значение.

anonymous
(08.06.21 03:33:07 MSK)

Ответ на: комментарий от anonymous 08.06.21 03:33:07 MSK

А, проглядел что тебе надо к оригу прицепить коунт, тогда делаешь второй проход по файлу и выводишь пару ключ, значение для каждой строки (ключу). Это тупо и влоб.

anonymous
(08.06.21 03:36:32 MSK)

Ссылка

from collections import defaultdict

like_a_file = [
    "текст1",
    "текст2",
    "",
    "текст1",
    "",
    "текст1",
    "текст2",
    "текст3"
]

result = defaultdict(int)

for line in like_a_file:
    result[line] += 1

for line in like_a_file:
    print(f"{line};{result[line]}")

anonymous
(08.06.21 04:05:53 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.06.21 03:33:07 MSK

Благодарю за подсказку, но нужно именно на баше, в питоне я полный ноль, в баше хоть как-то)

alexross
(08.06.21 04:27:50 MSK) автор топика

Ответ на: комментарий от alexross 08.06.21 04:27:50 MSK

На питоне я выше уже пример привел (только без открытия и чтения файла). На баше разве что сперва проход sort|unic -c с выхлопом в временный файл а потом join (но я не помню как он работает, лол)

anonymous
(08.06.21 04:34:11 MSK)