манипуляции с текстом ч.2

В чем проблема? Банальное если (i+1)-ый символ равен i-ому символу удалить (i+1)-ый символ

abs ★★★
(22.11.14 18:33:28 MSK)

Ответ на: комментарий от abs 22.11.14 18:33:28 MSK

а можно подробнее, не силен в баше

serles
(22.11.14 18:37:39 MSK) автор топика

Ответ на: комментарий от serles 22.11.14 18:37:39 MSK

Я просто алгоритм сказал, не для баша.

abs ★★★
(22.11.14 18:41:16 MSK)

Ссылка

echo aasffdjhdghneeraasdaeaashndasghs |python3 -c 'import sys;print("".join(set(sys.stdin.read())))'

anonymous
(22.11.14 18:45:43 MSK)

Ответ на: комментарий от anonymous 22.11.14 18:45:43 MSK

не годится:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte

serles
(22.11.14 22:13:37 MSK) автор топика

Ссылка

echo "aasffdjhdghneeraasdaeaashndasghs" |sed "s/./&\n/g" |uniq |sed -z "s/\n//g" |xargs echo

~~qulinxao~~ ★★☆
(22.11.14 22:33:22 MSK)

Ответ на: комментарий от qulinxao 22.11.14 22:33:22 MSK

чего-то не то:

echo «aasffdjhdghneeraasdaeaashndasghs» |sed «s/./&\n/g» |uniq |sed -z «s/\n//g» |xargs echo

выхлоп - asfdjhdghnerasdaeashndasghs
Нужно убрать не подряд идущие дубли, а все

serles
(22.11.14 22:46:41 MSK) автор топика

Ответ на: комментарий от serles 22.11.14 22:46:41 MSK

скармливаешь циклу по одному символу (например как выше)
в цикле читаешь переменную
проверяешь, стоит ли единичка в ассоциативном массиве с индексом переменной
если не стоит:
- ставишь единичку
- пишешь на выход считанную переменную

ziemin ★★
(22.11.14 22:53:15 MSK)

Ответ на: комментарий от ziemin 22.11.14 22:53:15 MSK

Большое спасибо! А не могли бы Вы это описать скриптиком, уж больно я туповат

serles
(22.11.14 22:57:09 MSK) автор топика

Ответ на: комментарий от serles 22.11.14 22:57:09 MSK

#! /usr/bin/env python3

import sys

used = []

for line in sys.stdin:
    for a in line:
        if a not in used:
            sys.stdout.write(a)
            used.append(a)

batekman ★★★
(22.11.14 23:02:19 MSK)
Последнее исправление: batekman 22.11.14 23:03:07 MSK (всего исправлений: 1)

Ответ на: комментарий от batekman 22.11.14 23:02:19 MSK

Спасибо, а как его применить к конкретному файлу?
Простите за вопрос!

serles
(22.11.14 23:11:57 MSK) автор топика

Ответ на: комментарий от serles 22.11.14 22:57:09 MSK

echo "aasffdjhdghneeraasdaeaashndasghs" | sed "s/./&\n/g" | (
  while read c
  do
    if [ "${in[x$c]}" != "1" ]
    then
      in[x$c]=1
      echo -n $c
    fi
  done
)

Результат: asfdjhgner

ziemin ★★
(22.11.14 23:16:30 MSK)
Последнее исправление: ziemin 22.11.14 23:19:54 MSK (всего исправлений: 2)

Ответ на: комментарий от serles 22.11.14 23:11:57 MSK

cat file.txt | ./supermegascript.py

batekman ★★★
(22.11.14 23:16:44 MSK)

Ответ на: комментарий от serles 22.11.14 23:11:57 MSK

Так тебе не на баше надо было?

ziemin ★★
(22.11.14 23:18:12 MSK)

Ссылка

Ответ на: комментарий от batekman 22.11.14 23:16:44 MSK

не получается:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 1845: invalid start byte

serles
(22.11.14 23:22:54 MSK) автор топика

Ссылка

может состоять из совершенно любых символов любых кодировок

Если строка состоит из символов «любых кодировок», то это не строка, а последовательность бит непонятного смысла, и в ней нельзя проводить операции над символами, пока не определишь кодировки.

proud_anon ★★★★★
(22.11.14 23:23:20 MSK)

Ссылка

Ответ на: комментарий от ziemin 22.11.14 23:16:30 MSK

странно, а у меня только

a

serles
(22.11.14 23:30:19 MSK) автор топика

Ответ на: комментарий от serles 22.11.14 23:30:19 MSK

Тьфу ты. declare -A in добавь в начале.

ziemin ★★
(22.11.14 23:32:26 MSK)

Ответ на: комментарий от ziemin 22.11.14 23:32:26 MSK

Да, самое оно!
Спасибо большое!
Еще по ходу:
А если строка берется из файла?

serles
(22.11.14 23:46:08 MSK) автор топика

Ответ на: комментарий от serles 22.11.14 23:46:08 MSK

Выше же тебе писали cat file.txt |.... Принцип тот же: убираешь echo и ставишь cat.

Только если у тебя там какой-то дикий двоичный файл скрипт может и не сработать. Что у тебя за данные и почему там все кодировки? Может и семибитная есть?

ziemin ★★
(22.11.14 23:51:12 MSK)

#! /usr/bin/perl

use 5.010;
use strict;
use warnings;
use utf8;
use open qw(:std :utf8);

my $string = <STDIN>;
chomp $string;
my @letters = split //, $string;

my @output;
my %seen;

for my $letter (@letters) {
    if (!defined $seen{$letter}) {
	$seen{$letter}++;
	push @output, $letter;
    } 
}

say @output;

$echo 'Ололо трололо!11расрас ©®™'  |./duplicates.pl 
Оло тр!1ас©®™
$

Nervous ★★★★★
(22.11.14 23:55:27 MSK)
Последнее исправление: Nervous 23.11.14 00:00:55 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ziemin 22.11.14 23:51:12 MSK

а хрен его знает, чего там! Брутальные словари 4-5G

просто cat file.txt |... не получается

serles
(22.11.14 23:56:39 MSK) автор топика


dron@gnu:~$ cat del.c 
#include <stdio.h>

int main(int argc, char *argv[])
{
    char  str[]="aasffdjhdghneeraasdaeaashndasghs";
    int buff;

    for (int i = 0; str[i] != '\0'; )
    {
        buff=str[i];
        i++;
        for(int x=i; str[x]!='\0';x++)
        {
            if(buff == str[x])
            str[x]=EOF;
        }
    }

    for (int z = 0;str[z] != '\0' ; z++)
    {
        if(str[z] != EOF)
        printf("%c",str[z]);
    }

    printf("\n");

    return 0;
}
dron@gnu:~$ gcc -std=c99 del.c ; ./a.out 
asfdjhgner
dron@gnu:~$

~~Dron~~ ★★★★★
(23.11.14 00:02:13 MSK)

Ответ на: комментарий от serles 22.11.14 23:56:39 MSK

Что не получается?

cat file.txt | sed "s/./&\n/g" | (
  while read c
  do
    if [ "${in[x$c]}" != "1" ]
    then
      in[x$c]=1
      echo -n $c
    fi
  done
)

?

ziemin ★★
(23.11.14 00:05:35 MSK)

Ответ на: комментарий от Dron 23.11.14 00:02:13 MSK

Q Dron & Nervous
Ребята, спасибо!
Подскажите как применить ваши скрипты к конкретному файлу, please!

serles
(23.11.14 00:07:18 MSK) автор топика

Ответ на: комментарий от ziemin 23.11.14 00:05:35 MSK

в файле 16777216 строк комбинации цифр 1-8, в каждой строке по 8 знаков Выхлоп -12345678 А как записать в файл?

serles
(23.11.14 00:11:55 MSK) автор топика

Ответ на: комментарий от serles 23.11.14 00:07:18 MSK

Файл поделен на строки? Надо, чтобы символы были уникальны в пределах строки или всего файла?

Nervous ★★★★★
(23.11.14 00:19:03 MSK)

Ссылка

Ответ на: комментарий от serles 23.11.14 00:11:55 MSK

Уже чувствую надо весь код приводить:

cat file.txt | sed "s/./&\n/g" | (
  while read c
  do
    if [ "${in[x$c]}" != "1" ]
    then
      in[x$c]=1
      echo -n $c
    fi
  done
) > file2.txt

Выходной файл file2.txt

комбинации цифр 1-8
Выхлоп -12345678

Это и есть твои кодировки?

ziemin ★★
(23.11.14 00:19:50 MSK)

Ответ на: комментарий от ziemin 23.11.14 00:19:50 MSK

Да нет, просто самый маленький, всего 151М, что бы проверить, как работает

serles
(23.11.14 00:23:27 MSK) автор топика

Ответ на: комментарий от serles 23.11.14 00:23:27 MSK

Чтобы часть файла направить есть команда head. Например head -c 1000K file.txt |... выдаст первый мегабайт файла.

ziemin ★★
(23.11.14 00:34:54 MSK)

Ответ на: комментарий от serles 23.11.14 00:07:18 MSK

dron@gnu:~$ cat del.c 
#include <stdio.h>
#include <assert.h>
#define MAXLEN 100500 /*Новые угарные серии на KарамбаTV ::)*/
int main(void)
{
    const char my_file[]="/home/dron/test.txt";
    int buff;
    char str[MAXLEN];

    FILE * stream=fopen(my_file,"r");
    assert(stream);

    for (int i = 0; (buff=fgetc(stream))!=EOF && i<MAXLEN; i++)
    {
        str[i]=buff;
    }

    for (int i = 0; str[i] != '\0'; )
    {
        buff=str[i];
        i++;
        for(int x=i; str[x]!='\0';x++)
        {
            if(buff == str[x])
            str[x]=EOF;
        }
    }


    for (int z = 0;str[z] != '\0' ; z++)
    {
        if(str[z] != EOF)
        printf("%c",str[z]);
    }

    return 0;
}
dron@gnu:~$ gcc -std=c99 del.c ; ./a.out 
asfdjhgner
dron@gnu:~$

~~Dron~~ ★★★★★
(23.11.14 00:41:11 MSK)
Последнее исправление: Dron 23.11.14 00:46:06 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ziemin 23.11.14 00:34:54 MSK

Похоже Ваш скрипт ищет уникальные символы во всем файле, а не в строках.
Ладно, хрен с юникодом, забейте на него!
Помогите отсортировать символы построчно в файле

serles
(23.11.14 00:43:31 MSK) автор топика

Ответ на: комментарий от serles 23.11.14 00:43:31 MSK

man sort

ziemin ★★
(23.11.14 00:44:02 MSK)

Ответ на: комментарий от ziemin 23.11.14 00:44:02 MSK

нет, не правильно выразился, удалить повторяющиеся символы в каждой строке файла

serles
(23.11.14 00:51:29 MSK) автор топика

Ответ на: комментарий от serles 23.11.14 00:43:31 MSK

А что бы в строках искал:

(echo "aabbcc"; echo "ddeeff") | (
  while read line
  do
    echo "$line" | sed "s/./&\n/g" | (
      while read c
      do
        if [ "${in[x$c]}" != "1" ]
        then
          in[x$c]=1
          echo -n $c
        fi
      done)
  done)

ziemin ★★
(23.11.14 00:52:33 MSK)

Ответ на: комментарий от serles 23.11.14 00:43:31 MSK

хрен с юникодом, забейте на него!

Работает же.

Помогите отсортировать символы построчно в файле

#! /usr/bin/perl

use 5.010;
use strict;
use warnings;
use utf8;
use open qw(:std :utf8);

while (<>) {
    chomp;
    my @letters = split //, $_;
    my @output;
    my %seen;

    for my $letter (@letters) {
	if (!defined $seen{$letter}) {
	    push @output, $letter;
	    $seen{$letter}++;
	} 
    }

    say sort @output;
}

Применять так:

user@host$ ./duplicates.pl input.txt

Чтобы писало вывод в файл:

user@host$ ./duplicates.pl input.txt > output.txt

Файл должен читаться построчно, 16Гб памяти иметь не обязательно.

Nervous ★★★★★
(23.11.14 00:53:57 MSK)
Последнее исправление: Nervous 23.11.14 00:54:39 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ziemin 23.11.14 00:52:33 MSK

ОК! так работает, но записывает всё в одну строку, как лечить?

serles
(23.11.14 01:02:32 MSK) автор топика

Ответ на: комментарий от serles 23.11.14 01:02:32 MSK

Перед последним done) добавь строчку echo

ziemin ★★
(23.11.14 01:03:50 MSK)

Ответ на: комментарий от serles 23.11.14 00:51:29 MSK

#!/usr/bin/python3

enc = 'utf-8'
out = open('target.out', 'w', encoding=enc)
for line in open('target.in', 'r', encoding=enc):
    line = ''.join(sorted(set(line.rstrip('\r\n'))))
    out.write('%s\n' % line)

anonymous
(23.11.14 01:09:26 MSK)

Ссылка

Ответ на: комментарий от ziemin 23.11.14 01:03:50 MSK

@Nervous
Фантастика! 151М
real 1m28.737s
user 1m26.940s
sys 0m0.240s

@ziemin
Отлично работает, но очень медленно:
за пять минут только 800кб из 151М обработал
Ребята!
Огромнейшее вам всем спасибо!
Вы мне очень помогли!

serles
(23.11.14 01:20:21 MSK) автор топика

Ответ на: комментарий от serles 23.11.14 01:20:21 MSK

Говорят, что если сделать вот так, будет еще быстрее, но мне не на чем проверить.

#! /usr/bin/perl

use 5.010;
use strict;
use warnings;
use utf8;
use open qw(:std :utf8);

while (<>) {
    chomp;
    my @letters = unpack 'U*', $_;
    my @output;
    my %seen;

    for my $letter (@letters) {
	if (!defined $seen{$letter}) {
	    push @output, $letter;
	    $seen{$letter}++;
	} 
    }

    say pack 'U*', sort @output;
}

Nervous ★★★★★
(23.11.14 01:29:54 MSK)

Ответ на: комментарий от Nervous 23.11.14 01:29:54 MSK

неправду говорят:

real 1m31.234s
user 1m28.344s
sys 0m0.144s

serles
(23.11.14 01:37:19 MSK) автор топика

Ответ на: комментарий от Nervous 23.11.14 01:29:54 MSK

но мне не на чем проверить.

#!/usr/bin/python3

import random

def lines():
    alpha = '1234567890' + \
        'qwertyuiopasdfghjklzxcvbnm' + \
        'QWERTYUIOPASDFGHJKLZXCVBNM' + \
        'йцукенгшщзхъфывапролджэячсмитьбюё' + \
        'ЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮЁ'
    while True:
        n = 50 + random.randrange(150)
        items = [random.choice(alpha) for _ in range(n)]
        yield ('%s\n' % ''.join(items)).encode('utf-8')

f = open('target.in', 'wb')
size = 0
for line in lines():
    if size >= 150*1024**2:
        break
    f.write(line)
    size = size + len(line)

anonymous
(23.11.14 01:59:25 MSK)

Ссылка

Ответ на: комментарий от serles 23.11.14 01:37:19 MSK

А вот это точно раза в 2 быстрее (спасибо анонимусу за данные для тестов).

#! /usr/bin/perl

use 5.010;
use strict;
use warnings;
use utf8;
use open qw(:std :utf8);
use List::MoreUtils qw(uniq);

while (<>) {
    chomp;
    my @letters = split //, $_;
    my @output = uniq @letters;
    say sort @output;
}

Nervous ★★★★★
(23.11.14 03:33:19 MSK)
Последнее исправление: Nervous 23.11.14 03:34:44 MSK (всего исправлений: 2)

Ответ на: комментарий от Nervous 23.11.14 03:33:19 MSK

Да, ВЫ правы:

real 1m21.635s
user 1m11.952s
sys 0m0.228s

Ещё раз огромрое спасибо всем!

serles
(23.11.14 08:53:54 MSK) автор топика

Ссылка

ЛОР мельчает…

 echo "aasffdjhdghneeraasdaeaashndasghs"  |\
sed -r ':l;s/(.)(.*)\1/\1\2/;tl'
asfdjhgner

emulek ★
(23.11.14 10:03:17 MSK)

Ответ на: комментарий от serles 22.11.14 22:46:41 MSK

то что ты делаешь nekulturno

порядок букв в ответе важен?

если нет добавь |sort по вкусу.

~~qulinxao~~ ★★☆
(23.11.14 10:05:22 MSK)

Ссылка

Ответ на: комментарий от emulek 23.11.14 10:03:17 MSK

годно.

~~qulinxao~~ ★★☆
(23.11.14 10:05:56 MSK)

Ссылка

Ответ на: комментарий от emulek 23.11.14 10:03:17 MSK

и да, по-русски:

$ echo "ААБААВГФФЫЦЦЫ"  | sed -r ':l;s/(.)(.*)\1/\1\2/;tl'
АБВГФЫЦ

emulek ★
(23.11.14 10:06:35 MSK)

Ответ на: комментарий от Nervous 23.11.14 03:33:19 MSK

Мда... Сейчас разобрался, опять не то:
Прекрасно удаляет дубликаты символов в строке, это гуд.
А что совсем есть не гуд, так это то, что он вдобавок сортирует по алфавиту символы в этой строке:

вход:

11111585
23414577
87645312

выход:

158
123457
12345678

а нужно:

158
234157
87645312

Что бы тупо удалял все повторяющиеся символы!

serles
(23.11.14 10:07:31 MSK) автор топика

Похожие темы