Программа: удаление всех повторяющийхся цифр (и букв в слове). С [в доработке]

c, строки

Упражнялся вчера с С и решил что-нибудь более или менее полезное написать для работы ~~со строками~~ символами, с исп. stdio. И вот такое получилось. Принимает один аргумент: Зачем может быть нужна?! ~~Когда тебе твоя девушка пишет все время вот так: «даааааа, вооооот» = )~~ (но пока удаляет только ASCII - цифры и лат. алфавит. Только из слов без кавычек) и вообще делает символы в слове уникальными, типа на входе «good», на выходе «god» или на входе «pool», на выходе «pol»

Тема отредактирована. См. комментарии ниже. Решение внизу

//This small prorgam removes all duplicated characters out of a word
//Программа удаляет все повторяющиеся символы из слова
//Author dcc0@yandex.ru 2018.

#include <stdio.h>
int main(int argc, char* argv[]) {
  //here we check arguments//проверяем аргументы
  if (argc < 2) {
    printf("Argument must be a word:\n");
    return 0;
  }

  int x, i, j;
  //it calculates an array's length
  //вычисляем длину слова и печатаем
  for (x = 0; argv[1][x] != '\0'; x++);
  printf ("Original length: %d\n", x);
  x=x+1;
  //here we search twins
  //ищем одинаковых
  for (i = 0; i != x; i++) {
    j = i + 1;
    while (j != x) {
      if (argv[1][i] == argv[1][j]) {
        argv[1][i] = '0';
      }
      j++;
    }
  }
j=0;
  //Output
  //Вывод
  for (i = 0; i != x; i++) {
    if (argv[1][i] != '0') {
      printf ("%c", argv[1][i]);
      j++;
    }
  }
  printf ("\nNumber of uniqe symbols: %d\n", j-1);
}

P.S. Форматирование поправил. Лишний блок из кода убрал. Комментарии на русском есть. P.P.S Ну вот еще подсократилось. «Динамическое вычисление длины массива убрали. В принципе можно и вычисление x убрать.

P.P.P.S Теперь и такую строку вроде правильно обрабатывает: „teeest teeestt tteeessstt“ Original length: 25 est Number of uniqe symbols: 4 Осталось сделать транслит функцию.

Ссылка

← Как преобразовать x-www-form-urlencoded данные в json?

Почему у меня в tkinter-е события обрабатываются без mainloop(), а у другого чувака - нет? →

← 1 2 →

как оно у тебя может обрабатывать «даааааа, вооооот» если у тебя нет даже намека на юникод? Впрочем и английский оно обрабатывает не корректно, пиши ещё. ))

~~vasyan~~ ★
(05.05.18 10:27:33 MSK)

Ответ на: комментарий от vasyan 05.05.18 10:27:33 MSK

Только ASCII А имеется ввиду, когда девушка на английском пишет = ) То. есть уехала она зарубеж и русской раскладки у неё там нет и пишет вот так «daaaaa vooooot»

AnonymUser ★
(05.05.18 10:38:25 MSK) автор топика

Ответ на: комментарий от AnonymUser 05.05.18 10:38:25 MSK

попробуй вместо «daaaaa vooooot» - «teeest teeestt tteeessstt»

~~vasyan~~ ★
(05.05.18 10:39:58 MSK)

Ответ на: комментарий от AnonymUser 05.05.18 10:38:25 MSK

Спеллчек.

anonymous
(05.05.18 10:43:15 MSK)

Ссылка

Ответ на: комментарий от vasyan 05.05.18 10:39:58 MSK

И, правда, промашка вышла . : )

AnonymUser ★
(05.05.18 10:45:27 MSK) автор топика

Ответ на: комментарий от AnonymUser 05.05.18 10:45:27 MSK

и для такой задачи у тебя слишком много кода и переменных, видно что K&R не читал )

~~vasyan~~ ★
(05.05.18 10:46:48 MSK)

Ответ на: комментарий от AnonymUser 05.05.18 10:45:27 MSK

Зато из такой строки корректно удаляет 438957348957777777777777777777777777777777777777786428364203462308642644444444444

AnonymUser ★
(05.05.18 10:47:50 MSK) автор топика

Ответ на: комментарий от vasyan 05.05.18 10:27:33 MSK

читал давно

AnonymUser ★
(05.05.18 10:48:20 MSK) автор топика

Ссылка

Ответ на: комментарий от AnonymUser 05.05.18 10:47:50 MSK

Ваша программа не работает вот с такими данными…

Зато вот с такими работает!

anonymous
(05.05.18 10:56:06 MSK)

Ссылка

#include <uchar.h>
#include <stdio.h>
#include <stdlib.h>
#include <locale.h>

// Длинна без повторений
// Не используется, но пусть будет.
size_t u_lenwrep(const char32_t* src)
{
  size_t i, k, len;
  
  if(!*src) return 0;
  for(i = 1, len = 1;src[i];i++, len++) {
    if(src[i] == src[i-1]) {
      for(k = i + 1;src[k] && src[k] == src[i];k++);
      if(!(i = k)) break;
    }
  }
  return len;
}

// Копирование в dest строки src но без повторений 
size_t u_cpywrep(char32_t* dest, const char32_t* src)
{
  size_t i, j;
  
  if(!*src) return 0;
  *dest = *src;
  for(i = 1, j = 1;src[j];i++, j++) {
    if(dest[i-1] == src[j])
      for(j++;src[j] == dest[i-1];j++);
    if(!(dest[i] = src[j])) break;
  }
  return i;
}

// Вывод char32_t строки
void u_print(char32_t* str)
{
  mbstate_t state;
  char utf8_char[MB_CUR_MAX];
  size_t len;
  
  for(;*str;str++) {
    len = c32rtomb(utf8_char, *str, &state);
    printf("%.*s", (int)len, utf8_char);
  }
}

int main(int argc, char** argv)
{
  setlocale(LC_ALL, "en_US.utf8");
  char32_t str[] = U"юююнииикоооддд неее ннуужжооонн";
  
  u_cpywrep(str, str);
  u_print(str);
  
  return EXIT_SUCCESS;
}

linuhs_user ★
(05.05.18 11:28:10 MSK)
Последнее исправление: linuhs_user 05.05.18 11:37:09 MSK (всего исправлений: 3)

Ответ на: комментарий от linuhs_user 05.05.18 11:28:10 MSK

Класс! Спасибо! Мне, правда, не дает покоя написание кода на stdio.

AnonymUser ★
(05.05.18 11:46:52 MSK) автор топика

Ответ на: комментарий от vasyan 05.05.18 10:46:48 MSK

K&R не читал

Я вот — читал. Юникод тогда ну разве что только рожали. И нормально удалялось в 8-битной кодировке всё.

vodz ★★★★★
(05.05.18 11:56:14 MSK)

Ответ на: комментарий от AnonymUser 05.05.18 11:46:52 MSK

Класс!

Да какой там класс? Человек явно не умеет указатели.

vodz ★★★★★
(05.05.18 11:57:21 MSK)

Ответ на: комментарий от vodz 05.05.18 11:57:21 MSK

Класс, что работает. В коде возврат по ссылке вижу.

Не-не,я от stdio ни на шаг, максимум stdlib и string.

Но программу свою выкидывать не буду, так как - я пытаюсь понять, сколько «максимальное среднее» число букв может быть в английском слове, да и в русском тоже. Как мне кажется, за 10 не выходит. Если так, тогда даже мой код все еще имеет смысл.

AnonymUser ★
(05.05.18 12:04:42 MSK) автор топика

Ссылка

Ответ на: комментарий от vodz 05.05.18 11:56:14 MSK

я про решение без юникода имел виду.

~~vasyan~~ ★
(05.05.18 12:06:27 MSK)

Ссылка

Ответ на: комментарий от vodz 05.05.18 11:57:21 MSK

Меньше информации, написал бы просто «н.умт.». Ну можно было бы и так, если намек на это.

size_t u_cpywrep(char32_t* dest, const char32_t* src)
{
  size_t i;
 
  *dest = *src;
  if(!*src) return 0;
  for(i = 1;*src;i++, src++) {
    if(dest[i-1] == *src)
      for(src++;*src == dest[i-1];src++);
    if(!(dest[i] = *src)) break;
  }
  return i;
}

linuhs_user ★
(05.05.18 12:12:48 MSK)
Последнее исправление: linuhs_user 05.05.18 12:20:14 MSK (всего исправлений: 3)

стиль ни к черту

если ставишь пробел перед открывающей круглой скобкой, то ставь его везде

anonymous
(05.05.18 12:13:29 MSK)

Ответ на: комментарий от linuhs_user 05.05.18 12:12:48 MSK

*dest = *src;

dest[0] = *src;

anonymous
(05.05.18 12:23:03 MSK)

Ответ на: комментарий от anonymous 05.05.18 12:23:03 MSK

А смысл? И так же работает, и короче

linuhs_user ★
(05.05.18 12:25:25 MSK)
Последнее исправление: linuhs_user 05.05.18 12:29:40 MSK (всего исправлений: 2)

Ответ на: комментарий от anonymous 05.05.18 12:23:03 MSK

dest[0] = src[0];

anonymous
(05.05.18 12:26:05 MSK)

Ответ на: комментарий от anonymous 05.05.18 12:26:05 MSK

0[dest] = 0[src];

linuhs_user ★
(05.05.18 12:27:01 MSK)

Ответ на: комментарий от linuhs_user 05.05.18 12:25:25 MSK

у тебя везде d[...]=...
кроме одного места, где *d = ...
это или стилистическая ошибка/небрежность или намеренное подчеркивание разницы

anonymous
(05.05.18 12:29:49 MSK)

Ответ на: комментарий от anonymous 05.05.18 12:29:49 MSK

А я даже о таком не задумывался, ну со звездочкой тут короче выходит, вот и поставил), спасиба.

linuhs_user ★
(05.05.18 12:31:14 MSK)

Ссылка

Ответ на: комментарий от linuhs_user 05.05.18 12:27:01 MSK

memcpy(dest,src,sizeof(*dest));

anonymous
(05.05.18 12:32:34 MSK)

Ссылка

Ответ на: стиль ни к черту от anonymous 05.05.18 12:13:29 MSK

Пробелы расставил, спасибо.

Заодно удалил один цикл - лишний. Код отредактировал в начале топика,тему тоже.

В общем вот такое слово обрабатывает корректно вроде бы. без пробелов если:

asdffgghhjjklllmmnnttrraasshhffttttttttttsssssssssssssss1111112382367483264283674333333333 dgjklmnrahfts1286743

Соответственно, 34 символа, достаточно, чтобы сопоставить 33 буквам русского алфавита. Напрашивается скрипт на bash с сопоставлением и конвейер, под обработку отдельного слова. Можно другие символы аски по русский алфавит определить, чтобы не трогать лат. алфвавит.

AnonymUser ★
(05.05.18 12:38:06 MSK) автор топика

Ссылка

Ответ на: комментарий от linuhs_user 05.05.18 11:28:10 MSK

Но ваш кот немного не про то. Мне нужно вообще только уникальные символы оставить т.е. молоко= молк

AnonymUser ★
(05.05.18 12:44:24 MSK) автор топика

Ответ на: комментарий от AnonymUser 05.05.18 12:44:24 MSK

сперва ты пишешь про удаление повторений, потом переобуваешься в полете и говоришь что твоя программа про уникальные символы, тем самым некрасиво поступая с людьми которые тебе тут уже и с юникодом акробатику показывают. Ты троль? )

~~vasyan~~ ★
(05.05.18 13:09:23 MSK)

Ответ на: комментарий от vasyan 05.05.18 13:09:23 MSK

Я в процессе осмысления. Такой вариант, приведенный linuhs_user, тоже подойдет.

AnonymUser ★
(05.05.18 13:20:59 MSK) автор топика

Ответ на: комментарий от vasyan 05.05.18 13:09:23 MSK

Вернее, лучше всего как вариант linuhs_user, но еще и вариант со срезанием всех повтором тоже пригодиться

AnonymUser ★
(05.05.18 13:23:42 MSK) автор топика

Ссылка

Ответ на: комментарий от vasyan 05.05.18 13:09:23 MSK

Когда срезаешь вот такие сообщения

типа heeelloooo brooooo и на выходе

helo bro

тут потери символов роли не играют

AnonymUser ★
(05.05.18 13:27:07 MSK) автор топика

Ответ на: комментарий от AnonymUser 05.05.18 13:20:59 MSK

Так может стоит уже озвучить изначально решаемую задачу, а не твой конкретный метод решения её подзадач.

anonymous
(05.05.18 13:35:49 MSK)

Ссылка

а комменты для нас по-русски?

chenger ★★
(05.05.18 13:43:28 MSK)

Ссылка

Ответ на: комментарий от AnonymUser 05.05.18 13:27:07 MSK

What the hell - gitler? -> what the hel - gitler?

Совсем не роляют..

Для русского языка

еду в ООО остановочка -> еду в О остановочка

chenger ★★
(05.05.18 13:46:13 MSK)
Последнее исправление: chenger 05.05.18 13:50:30 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от vasyan 05.05.18 13:09:23 MSK

может быть я тролль, чего хотите?

Кстати, после обработки буду троль. Звучит как приказ.

chenger ★★
(05.05.18 13:53:44 MSK)
Последнее исправление: chenger 05.05.18 13:54:28 MSK (всего исправлений: 1)

Ответ на: комментарий от linuhs_user 05.05.18 12:12:48 MSK

А почему так много лапши, разве это не то же самое?

size_t u_cpywrep(char32_t * dest, const char32_t * src) {
  char32_t * start = dest;  
  while((*dest = *src++)) dest += (*dest != *src);
  return dest - start;
}

~~LjubaSherif~~
(05.05.18 14:19:07 MSK)

Это не си. Целиком и полностью. Ну и самое главное, автор указан - куда же без него.

Решение проблемы очень просто - первые, выкинуть нахрен то, либо тех, кто так научил. Попробовать ещё раз, а после запостить сюда для получения ответа на вопрос «сейчас то, либо опять нет».

Иначе это полностью тупиковая ветвь развития.

~~LjubaSherif~~
(05.05.18 14:23:53 MSK)

более или менее полезное

делает символы в слове уникальными, типа на входе «good», на выходе «god» или на входе «pool», на выходе «pol»

Очень полезно, да, только у тебя совсем другие слова получаются. А на питоне ты бы уже поднял бложик на джанге на локалхосте за то же время.

Virtuos86 ★★★★★
(05.05.18 15:19:52 MSK)
Последнее исправление: Virtuos86 05.05.18 15:20:30 MSK (всего исправлений: 1)

Ответ на: комментарий от chenger 05.05.18 13:53:44 MSK

может быть я тролль, чего хотите?
Кстати, после обработки буду троль. Звучит как приказ.

Приказом или императивом будет как раз «тролль!», а «троль!» не имеет смысла, потому что такого слова нет, и значения оно не имеет соответственно.

Virtuos86 ★★★★★
(05.05.18 15:47:54 MSK)

Ссылка

Ответ на: комментарий от Virtuos86 05.05.18 15:19:52 MSK

А на питоне ты бы уже поднял бложик на джанге

Спасибо, проблевался. А можно теперь нескромный вопрос: наяху еще один санный бложик билять?

anonymous
(05.05.18 17:13:56 MSK)

Ответ на: комментарий от anonymous 05.05.18 17:13:56 MSK

Друзья, предлагаю обойтись без перепалки. Задача приблизительная. У нас не плановая экономика. Решение, высказанное ранее устраивает, спасибо linuhs_user Свое также буду дорабатывать. Как лучше сделать пока я не знаю сам.

AnonymUser ★
(05.05.18 17:50:16 MSK) автор топика

Ссылка

Ответ на: комментарий от Virtuos86 05.05.18 15:19:52 MSK

Все там как надо получается. https://ideone.com/fg0v4g

AnonymUser ★
(05.05.18 17:57:48 MSK) автор топика

Ссылка

Мне вот интересно, кому нифиг надо в 21 веке ковырять строки через указатели? Вот кто на плюсах может в одну строчку написать современно, стильно и модно?

~~Bobby_~~
(05.05.18 18:13:43 MSK)

Ответ на: комментарий от Bobby_ 05.05.18 18:13:43 MSK

Мне вообще идеально на stdio

AnonymUser ★
(05.05.18 18:24:50 MSK) автор топика

Ссылка

Ответ на: комментарий от Bobby_ 05.05.18 18:13:43 MSK

Но плюсы тоже подходят. Си вообще принадлежит вечности. Тут не показ мод = )

AnonymUser ★
(05.05.18 18:26:11 MSK) автор топика

Ответ на: комментарий от AnonymUser 05.05.18 18:26:11 MSK

bool seen[ UCHAR_MAX] = {0}; std::erase(std::remove_if(std::begin(str), std::end(str), [&seen](unsigned x) { unsigned char lower = std::to_lower(x); bool result = seen[lower - 'a']; seen[lower - 'a'] = true; return result; }));

~~Bobby_~~
(05.05.18 18:29:24 MSK)

Ссылка

Ответ на: комментарий от LjubaSherif 05.05.18 14:19:07 MSK

А почему так много лапши, разве это не то же самое?

Вот пристали к человеку, ну не умеет он так. :)

Но код явно из серии меньше символов в исходнике любой ценой производительности? Я угадал? Может оптимизатор и выкинет лишние присваивание, бог его знает, докуда мысль оптимизаторская дошла, но так всё же лучше:

....
while((*dest = *src++)) {
        while (*dest == *src)
                src++;
        dest++;
  }
return ...

vodz ★★★★★
(05.05.18 18:46:22 MSK)
Последнее исправление: vodz 05.05.18 18:49:41 MSK (всего исправлений: 1)

Я свой говнокод на гите не афиширую, но здесь...

hbars ★★★★★
(05.05.18 18:51:52 MSK)
Последнее исправление: hbars 05.05.18 18:52:15 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Bobby_ 05.05.18 18:13:43 MSK

*printf уже отменили?

hbars ★★★★★
(05.05.18 19:03:00 MSK)

Ссылка

Почини форматирование кода, глаза вытекают.

anonymous
(05.05.18 19:12:02 MSK)

Ссылка

Ответ на: комментарий от vodz 05.05.18 18:46:22 MSK

Но код явно из серии меньше символов в исходнике любой ценой производительности?

Всё совершенно иначе. Она не только меньше.

Может оптимизатор и выкинет лишние присваивание

Зачем? Лишние этот вот этот мусор - while (*dest == *src), а присваивание не лишнее. Оно бесплатное.

~~LjubaSherif~~
(05.05.18 19:32:26 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Как преобразовать x-www-form-urlencoded данные в json?

Development

Почему у меня в tkinter-е события обрабатываются без mainloop(), а у другого чувака - нет? →

стиль ни к черту

Похожие темы