Вопрос по коду

Ответ на: комментарий от i-rinat 02.08.16 15:29:58 MSK

Выложи всю программу целиком с привязкой к файлам и еще там надо отсортировать по алфавиту

~~Gremlin_~~
(02.08.16 15:47:22 MSK) автор топика

Ответ на: комментарий от i-rinat 02.08.16 15:29:58 MSK

Хотя напиши время за которое твоя программа сделает работу моей программы моего файла с выводом в файл по алфавиту

~~Gremlin_~~
(02.08.16 16:27:54 MSK) автор топика

Ссылка

Ответ на: комментарий от i-rinat 02.08.16 15:29:58 MSK

Если бы это было тестовое задание

так это оно и есть

vvviperrr ★★★★★
(02.08.16 16:30:05 MSK)

Ссылка

Ответ на: комментарий от i-rinat 02.08.16 15:29:58 MSK

new word_delimiter

кстати зачем, если стандартный stringstream уже умеет делить по пробелам?

понял.

vvviperrr ★★★★★
(02.08.16 16:32:57 MSK)
Последнее исправление: vvviperrr 02.08.16 16:38:59 MSK (всего исправлений: 1)

Ответ на: комментарий от vvviperrr 02.08.16 16:32:57 MSK

Это самая сложная часть задачи, чтобы не только по пробелами разелять.

invy ★★★★★
(02.08.16 19:15:45 MSK)

Мимотредонечитальный ответ : ИМХО, лучше так (с питона на кресты адаптируй сам, дам подсказку - std::map. А вообще - почитай про STL-е контейнеры)

with open(file_name, 'r') as f:
  content = f.read()
words = content.split(' ')
count = {}
for word in words:
  if word not in count.keys():
    count[word] = 0
  count[word]++

Как минимум - читаемость выше. Да и сложность не большая вроде (если крестовая реализация не имеет фатальных недостатков).

Судя по http://stackoverflow.com/questions/222658/multiset-map-and-hash-map-complexity - крестовый эквивалент заимеет сложность O(N * log(N)) Подсказка - std::map.

alex4321 ★
(02.08.16 21:19:15 MSK)

Ответ на: комментарий от alex4321 02.08.16 21:19:15 MSK

И да, обрати внимание на hash_map .

alex4321 ★
(02.08.16 21:22:23 MSK)

Ссылка

Ответ на: комментарий от invy 02.08.16 02:35:18 MSK

Без бустопараши куда приятней. А вообще конечно адовый топик.

anonymous
(02.08.16 21:25:10 MSK)

Ссылка

Ответ на: комментарий от invy 02.08.16 19:15:45 MSK

чтобы не только по пробелами разелять.

Это, конечно, благородная цель, но ограничение 256 символами всё опошляет.

tailgunner ★★★★★
(02.08.16 21:37:46 MSK)

Ответ на: комментарий от alex4321 02.08.16 21:19:15 MSK

а зачем .keys() ?

trashymichael ★★★
(02.08.16 21:56:29 MSK)

Ответ на: комментарий от tailgunner 02.08.16 21:37:46 MSK

Вообще-то там table_size - ограничение, который зависит от локали.

invy ★★★★★
(02.08.16 21:58:19 MSK)

Ответ на: комментарий от trashymichael 02.08.16 21:56:29 MSK

Потому что я херовый питонист.

alex4321 ★
(02.08.16 21:59:37 MSK)

Ссылка

Ответ на: комментарий от invy 02.08.16 21:58:19 MSK

Но цикл до 256.

tailgunner ★★★★★
(02.08.16 22:00:19 MSK)

Вот так люди толком не изучив C, начинают пытаться что-то писать на плюсах.

anonymous
(02.08.16 22:01:11 MSK)

Ссылка

Ответ на: комментарий от tailgunner 02.08.16 22:00:19 MSK

Цикл надо до 128 вообще, иначе поломается utf8 :)

По хорошему, можно (и нужно) руками прописать таблицу разделителей, но в данном случае цикл - ибо лень.

invy ★★★★★
(02.08.16 22:04:17 MSK)

Ссылка

Ответ на: комментарий от trashymichael 02.08.16 21:56:29 MSK

а зачем .keys() ?

Это ускоряющий цикл.

i-rinat ★★★★★
(02.08.16 23:16:10 MSK)

Ответ на: комментарий от alex4321 02.08.16 21:19:15 MSK

Конечно интересно , вот сколько времени до завершения?

~~Gremlin_~~
(02.08.16 23:23:10 MSK) автор топика

Ответ на: комментарий от alex4321 02.08.16 21:19:15 MSK

Есть же регулярки и collections.Counter:

#!/usr/bin/python3
import re
from collections import Counter

data = open('bigtestfile.txt').read().lower()
c = Counter(re.findall(r'\w+-?\w+', data))

for word,n in c.most_common():
    suf = 'а'  if n%10 in [2,3,4] and n%100 not in [12,13,14]  else  ''
    print('%s встречается %i раз%s' % (word.rjust(20), n, suf))

Это если по-простому. 3.5 секунды на файл ТСа.

anonymous
(02.08.16 23:24:42 MSK)

Ответ на: комментарий от anonymous 02.08.16 23:24:42 MSK

Ну как бы я о «алгоритме» скорее, а не агитирую за переписывание всего на питоне.

alex4321 ★
(02.08.16 23:27:01 MSK)

Ответ на: комментарий от Gremlin_ 02.08.16 23:23:10 MSK

#include <string>
#include <iostream>
#include <fstream>
#include <list>
#include <map>
#include <sys/time.h>

int main() {
	struct timeval initTime;
	gettimeofday(&initTime, NULL);
	int initMinis = initTime.tv_sec * 1000 + initTime.tv_usec / 1000;

	std::ifstream file;
	file.open("bigtestfile.txt");
	std::list<std::string> words;
	std::string word;
	while (file >> word) {
		words.push_back(word);
	}
	file.close();
	
	struct timeval readedTime;
	gettimeofday(&readedTime, NULL);
	int readedMinis = readedTime.tv_sec * 1000 + readedTime.tv_usec / 1000;

	std::cout << "Readed\n";
	std::map<std::string, int> counts;
	for (std::list<std::string>::iterator it = words.begin(); it != words.end(); it++) {
		std::string word = *it;
		if (counts.find(word) == counts.end()) {
			std::cout << word << "\n";
			counts.insert(std::pair<std::string, int>(word, 0));
		}
		counts[word]++;
	}
	
	struct timeval readyTime;
	gettimeofday(&readyTime, NULL);
	int readyMinis = readyTime.tv_sec * 1000 + readyTime.tv_usec / 1000;

	for (std::map<std::string, int>::iterator it = counts.begin(); it != counts.end(); it++) {
		std::cout << it->first << " " << it->second << "\n";
	}

	std::cout << "Read time : " << readedMinis - initMinis << " ms\nCount time : " << readyMinis - readedMinis << " ms\n";
}

Вот крестовый быдлокод.

Read time : 1874 ms
Count time : 4293 ms

Ну, примерно такие цифры.

alex4321 ★
(02.08.16 23:51:30 MSK)

Ответ на: комментарий от alex4321 02.08.16 23:27:01 MSK

Сорян, r'\w+-?\w*'.

anonymous
(02.08.16 23:51:49 MSK)

Ссылка

Ответ на: комментарий от alex4321 02.08.16 23:51:30 MSK

Против 10 в твоём примере. И это не считая того, что я не стал выбирать, какой map-подобный контейнер здесь лучше - просто прихерачил map

alex4321 ★
(02.08.16 23:53:46 MSK)

Ответ на: комментарий от i-rinat 02.08.16 23:16:10 MSK

Можно вопрос - что за скрытый смысл ты нашёл в моём разгильдяйстве? А то лень вчитываться. Ускорения какие-то, кадры...

alex4321 ★
(03.08.16 00:03:11 MSK)

Ответ на: комментарий от alex4321 02.08.16 23:53:46 MSK

Забыл в файл записать, если работает код использую твой?

~~Gremlin_~~
(03.08.16 00:05:15 MSK) автор топика

Ответ на: комментарий от Gremlin_ 03.08.16 00:05:15 MSK

Да юзай, мне-то что. А про контейнеры, наверное, таки почитай - начерта велосипедить, если задача ложится на них?

alex4321 ★
(03.08.16 00:07:25 MSK)

Ответ на: комментарий от alex4321 03.08.16 00:07:25 MSK

Хотя, понадобится пара-тройка изменений.

alex4321 ★
(03.08.16 00:12:31 MSK)

Ссылка

И если тебе только результат нужен, вот:

grep -Poi '[a-zа-я]+' bigtestfile.txt | sort | uniq -c > bigresult.txt

:)

anonymous
(03.08.16 00:25:00 MSK)

Ответ на: комментарий от alex4321 03.08.16 00:03:11 MSK

А то лень вчитываться.

Если пересказывать историю, вся соль теряется.

i-rinat ★★★★★
(03.08.16 00:29:28 MSK)

Ответ на: комментарий от i-rinat 03.08.16 00:29:28 MSK

Хм, оно должно тормозить в сравнении с

if word in counts

?

Вроде же под капотом в случае dict-а то же самое, не? Или я туплю?

alex4321 ★
(03.08.16 00:45:34 MSK)

Ответ на: комментарий от alex4321 03.08.16 00:45:34 MSK

Хм, оно должно тормозить

Ну да. Вызов keys() проходится по словарю, создаёт новый список из ключей. Потом в этом списке ищется строка, простым перебором. И так далее, для каждого слова.

i-rinat ★★★★★
(03.08.16 00:54:52 MSK)

Ответ на: комментарий от i-rinat 03.08.16 00:54:52 MSK

Вынужден согласиться - туплю, туплю.

alex4321 ★
(03.08.16 00:57:51 MSK)

Ссылка

Ответ на: комментарий от i-rinat 03.08.16 00:54:52 MSK

Офтоп, конечно, но на вот этом коде я не заметил существенной разницы. Сперва кажется, что один из способов чуть быстрее, но стоит поменять вызовы местами, как иллюзия пропадает.

Почему 40 миллионов? Потому, что в данный момент большая часть моей оперативки забита всяким виртуальным дерьмом =)

anonymous
(03.08.16 02:41:52 MSK)

Ответ на: комментарий от alex4321 02.08.16 23:51:30 MSK

Ваше время чтения из файла почти 2 секунды - это файл 55 мегабайт? Потому что у меня чтение этого файла занимает 184 секунды

~~Gremlin_~~
(03.08.16 03:57:50 MSK) автор топика

Ответ на: комментарий от anonymous 03.08.16 00:25:00 MSK

Да было бы классно,только вначале надо качнуть баш

~~Gremlin_~~
(03.08.16 04:04:04 MSK) автор топика

Ссылка

Ответ на: комментарий от alex4321 02.08.16 21:19:15 MSK

см. предыдущий комментарий

~~Gremlin_~~
(03.08.16 04:05:58 MSK) автор топика

Ссылка

Ответ на: комментарий от Gremlin_ 03.08.16 03:57:50 MSK

184 секунды

порядка 40-100 гб файл?

anonymous
(03.08.16 04:22:03 MSK)

Ответ на: комментарий от anonymous 03.08.16 04:22:03 MSK

tmp$ time ./wc < bigtestfile.txt >result

real 0m0.802s user 0m0.785s sys 0m0.016s

#include <stdio.h>
#include <string.h>
#include <ctype.h>
#include <stdlib.h>

//////////////////////////////////
#define WORD_TAB_SIZE 1024
#define WORD_MAX_LENGTH 1024
#define ISALNUM(c) (isalpha (c) || (c) == '_')

typedef struct word_st {
    struct word_st *next;
    int   counter;
    char  str[];
}word_t;

word_t *words[WORD_TAB_SIZE] = {0};
///////////////////////////////////////////////////////////
unsigned str_hash (char *str)
{
    unsigned int idx = 0;

    while (*str) {
        idx = (idx * 31) + (unsigned int) *str++;
    }
    return (idx % WORD_TAB_SIZE);
}

word_t *word_new (char *str)
{
    int len = strlen (str) + 1;
    word_t *w;

    w = malloc (sizeof (word_t) + len);
    strcpy (w->str, str);
    w->counter = 1;
    w->next = NULL;
    return w;
}

void word_count (char *str)
{
    int idx = str_hash (str);
    word_t *prev, *cur;
    int cmp;

    for (prev = NULL, cur = words[idx];
         cur != NULL;
         prev = cur, cur = cur->next) {

        cmp = strcmp (cur->str, str);
        if (cmp < 0)
            break;
        if (cmp == 0) {
            cur->counter++;
            return;
        }
    }
    cur = word_new (str);
    if (prev != NULL) {
        cur->next = prev->next;
        prev->next = cur;
    } else {
        cur->next = words[idx];
        words[idx] = cur;
    }
}

void words_report ()
{
    word_t *w;
    int i;

    for (i = 0; i < WORD_TAB_SIZE; i++) {

        for (w = words[i]; w != NULL; w = w->next) {
            printf ("%20s\t%d\n", w->str, w->counter);
        }
    }
}

int main ()
{
    char word[WORD_MAX_LENGTH];
    enum { STATE_INIT, STATE_WORD} state = STATE_INIT;
    int c, idx;

    idx = 0;
    while ((c = fgetc (stdin)) != EOF) {
        
        switch (state) {
            case STATE_INIT:
                if (ISALNUM (c)) {
                    word[idx++] = tolower (c);
                    state = STATE_WORD;
                }
                break;

            case STATE_WORD:
                if (!ISALNUM (c)) {
                    word[idx] = 0;
                    word_count (word);
                    idx = 0;
                    state = STATE_INIT;
                } else if (idx < WORD_MAX_LENGTH - 1) {
                    word[idx++] = tolower (c);
                }
                break;
        }
    }

    if (state == STATE_WORD) {
        word[idx] = 0;
        word_count (word);
    }
    words_report ();
    return 0;
}

anonymous
(03.08.16 08:19:01 MSK)

Ответ на: комментарий от anonymous 03.08.16 02:41:52 MSK

Офтоп, конечно, но на вот этом коде я не заметил существенной разницы. Сперва кажется, что один из способов чуть быстрее, но стоит поменять вызовы местами, как иллюзия пропадает.

Эээ. У меня вот так:

<dictionary-keyiterator object at 0x7f4a9b6b7940>
Without: 41
<listiterator object at 0x7f4a9b7ab450>
With.keys():  424051

i-rinat ★★★★★
(03.08.16 12:29:06 MSK)

Ответ на: комментарий от i-rinat 03.08.16 12:29:06 MSK

$ python -V
Python 3.5.2

anonymous
(03.08.16 12:55:09 MSK)

Ссылка

Ответ на: комментарий от i-rinat 03.08.16 12:29:06 MSK

А ышо вот:

<dict_keyiterator object at 0x7f1679f34908>
Without: 51
<dict_keyiterator object at 0x7f1679f34908>
With.keys():  51

При том, что даже если в одной из функций поменять количество элементов или их значения, а так же начало их нумерации через enumerate(range(), start), то адреса объектов всё равно будут совпадать.

anonymous
(03.08.16 13:05:32 MSK)

Ответ на: комментарий от anonymous 03.08.16 13:05:32 MSK

В третьем питоне dict.keys() возвращает dictionary view, а во втором — список.

То есть в третьем разницы в скорости нет.

i-rinat ★★★★★
(03.08.16 14:08:34 MSK)
Последнее исправление: i-rinat 03.08.16 14:08:59 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous 03.08.16 04:22:03 MSK

нет 55 мб,может комп тормозит? посмотрите какое время выдаст моя программа

~~Gremlin_~~
(03.08.16 15:25:20 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 03.08.16 08:19:01 MSK

Не читаемо

~~Gremlin_~~
(03.08.16 15:56:17 MSK) автор топика

Ссылка

Ответ на: комментарий от alex4321 02.08.16 23:51:30 MSK

вот время на плюсах: Read time : 216000 ms

Count time : 382895 ms

программа чуть изменена , смотри вконце файла закомментированна

~~Gremlin_~~
(03.08.16 16:08:37 MSK) автор топика

Ответ на: комментарий от Gremlin_ 03.08.16 16:08:37 MSK

224

778

разница в 400 секунд

~~Gremlin_~~
(03.08.16 16:38:24 MSK) автор топика

Ответ на: комментарий от Gremlin_ 03.08.16 16:38:24 MSK

Если считывать не в лист а вектор то 319 , его сорт 169 , в целом 790 без времени считывания

~~Gremlin_~~
(03.08.16 17:06:23 MSK) автор топика

Ответ на: комментарий от i-rinat 03.08.16 14:08:34 MSK

Засуньте свой питон и авэка себе в одно место и помогите с плюсами

~~Gremlin_~~
(03.08.16 17:29:27 MSK) автор топика

Ответ на: комментарий от Gremlin_ 03.08.16 17:29:27 MSK

Тебе уже ничего не поможет, раз подобная прога у тебя сотни секунд выполняется. Выбери себе другую профессию.

anonymous
(03.08.16 17:33:19 MSK)

Ссылка

Ответ на: комментарий от Gremlin_ 03.08.16 17:29:27 MSK

помогите

Тебе уже помогли, несколько вариантов кода в треде висит.

i-rinat ★★★★★
(03.08.16 17:34:52 MSK)

Ответ на: комментарий от Gremlin_ 03.08.16 17:29:27 MSK

Засуньте

Предлагаю проигнорировать этого господина. Пусть сам разбирается или идет в макдак работать с таким гонором.

anonymous
(03.08.16 17:35:15 MSK)

Похожие темы