K&R C Вопрос

Ответ на: комментарий от TrueTsar1C 07.04.15 17:55:59 MSK

А выкати это куда-то

http://www.lib.ru/INPROZ/MARKTWAIN/adventtomsaw_eng.txt_Ascii.txt

#!/usr/bin/env python
import random

with open("adventtomsaw_eng.txt_Ascii.txt") as f:
	s = f.read()
words = s.split()
marks = ("CENSORED", "O RLY", "####", "????????")
for k in range(2000):
	line = " ".join(random.choice(words) for j in range(3))
	line = line.replace("'", "\\'")
	print("   sub_filter '{}' '{}';".format(line, random.choice(marks)))

i-rinat ★★★★★
(07.04.15 18:17:45 MSK)

Ответ на: комментарий от i-rinat 07.04.15 18:17:45 MSK

С учётом регистра? Или так же как и там без?

~~TrueTsar1C~~
(07.04.15 18:20:47 MSK)

Ответ на: комментарий от TrueTsar1C 07.04.15 18:20:47 MSK

С учётом регистра?

Регистронезависимо в пределах ASCII.

i-rinat ★★★★★
(07.04.15 18:22:51 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 07.04.15 13:50:55 MSK

А где ты видел кодировку, в которой первая половина не совпадает с ASCII?

UTF-16

MyTrooName ★★★★★
(07.04.15 18:25:10 MSK)

Ответ на: комментарий от MyTrooName 07.04.15 18:25:10 MSK

Врешь! Не может такого быть, чтобы первые 127 бит хрюникода не совпадали с ASCII!

~~Eddy_Em~~ ☆☆☆☆☆
(07.04.15 18:25:47 MSK)

Ответ на: комментарий от Eddy_Em 07.04.15 18:25:47 MSK

$ echo -n 0123456789 | iconv -t utf16  | wc -c
22

UTF-16 - это не хрюникод, это хрюникод хуянфер трансформат

MyTrooName ★★★★★
(07.04.15 18:29:59 MSK)
Последнее исправление: MyTrooName 07.04.15 18:35:56 MSK (всего исправлений: 2)

Ответ на: комментарий от TrueTsar1C 07.04.15 18:20:47 MSK

Кстати, какой там сейчас state-of-the-art алгоритм для поиска многих строк сразу? Можешь закодить его, если задача слишком простая.

i-rinat ★★★★★
(07.04.15 18:34:21 MSK)

Ответ на: комментарий от MyTrooName 07.04.15 18:25:10 MSK

Неа, ты путаешь с длиной, а вот кодовые позиции те же.

'A' == 0x41(utf8) == 0x0041(utf16)

beastie ★★★★★
(07.04.15 18:36:39 MSK)

Ответ на: комментарий от i-rinat 07.04.15 18:34:21 MSK

подписался на тред. если перенесете обсуждение куда-нибудь, скастаните, пожалуйста

MyTrooName ★★★★★
(07.04.15 18:37:41 MSK)

Ссылка

Ответ на: комментарий от MyTrooName 07.04.15 18:29:59 MSK

Ты хоть бы матчасть подучил!

echo -n 0123456789 | iconv -t utf16 | hexdump -x
0000000    feff    0030    0031    0032    0033    0034    0035    0036
0000010    0037    0038    0039                                        
0000016

~~Eddy_Em~~ ☆☆☆☆☆
(07.04.15 18:38:23 MSK)

Ответ на: комментарий от beastie 07.04.15 18:36:39 MSK

ну да, я понимаю. но если utf-16 загнать в char[], код явно поломается

MyTrooName ★★★★★
(07.04.15 18:38:33 MSK)

Ответ на: комментарий от i-rinat 07.04.15 18:34:21 MSK

Кстати, какой там сейчас state-of-the-art алгоритм для поиска многих строк сразу?

И я хочу. А то на ум приходит только построение дерева шаблонов и пропускание каждого очередного символа по этому дереву.

~~Eddy_Em~~ ☆☆☆☆☆
(07.04.15 18:39:36 MSK)

Ответ на: комментарий от MyTrooName 07.04.15 18:38:33 MSK

если utf-16 загнать в char[]

А если дедушке отрезать...

~~Eddy_Em~~ ☆☆☆☆☆
(07.04.15 18:40:07 MSK)

Ответ на: комментарий от Eddy_Em 07.04.15 18:38:23 MSK

codepoint - это термин юникода, а не UTF

MyTrooName ★★★★★
(07.04.15 18:40:39 MSK)

Ответ на: комментарий от MyTrooName 07.04.15 18:40:39 MSK

Да пофиг мне, что там в хрюникоде вашем. Я его даже палкой тыкать не собираюсь! Пусть валяется, воняет...

~~Eddy_Em~~ ☆☆☆☆☆
(07.04.15 18:41:25 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 07.04.15 18:40:07 MSK

А если дедушке отрезать...

ну режь, своему только

MyTrooName ★★★★★
(07.04.15 18:41:33 MSK)

Ответ на: комментарий от MyTrooName 07.04.15 18:41:33 MSK

Боюсь, даже если выкопать, там уже нечего резать...

~~Eddy_Em~~ ☆☆☆☆☆
(07.04.15 18:44:25 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 07.04.15 18:38:23 MSK

тогда держи так:

$ echo -n 0123456789 | iconv -t utf16be  | hexdump -x
0000000    3000    3100    3200    3300    3400    3500    3600    3700
0000010    3800    3900                                                
0000014

MyTrooName ★★★★★
(07.04.15 18:44:28 MSK)

Ответ на: комментарий от MyTrooName 07.04.15 18:44:28 MSK

Давай еще в хрюникод-32-среднеконечный. Извращенец!

~~Eddy_Em~~ ☆☆☆☆☆
(07.04.15 18:45:01 MSK)

Ответ на: комментарий от Eddy_Em 07.04.15 18:45:01 MSK

не буй куйлом. я тебе привел пример, а ты мне своей религией мозги моешь

MyTrooName ★★★★★
(07.04.15 18:47:46 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 07.04.15 18:39:36 MSK

А то на ум приходит только построение дерева шаблонов и пропускание каждого очередного символа по этому дереву.

Алгоритм Ахо-Корасик это усовершенствование описанного тобой подхода, с обратными связями, чтобы не откатываться к корню дерева. Ему уже больше сорока лет. В начале 2000-х были свежие работы на тему поиска строк.

i-rinat ★★★★★
(07.04.15 19:09:03 MSK)

Ссылка

Ответ на: комментарий от MyTrooName 07.04.15 18:38:33 MSK

char бывает 16-битный на некоторых архитектурах. И там, таки да, wchar ≡ char.

alegz ★★★★★
(07.04.15 19:38:58 MSK)

Ответ на: комментарий от alegz 07.04.15 19:38:58 MSK

всегда было интересно, как на таких архитектурах называется 8-битный тип

MyTrooName ★★★★★
(07.04.15 20:12:43 MSK)

Ответ на: комментарий от MyTrooName 07.04.15 20:12:43 MSK

как на таких архитектурах называется 8-битный тип

По аналогии с тем, как на x86 называется 5-битный тип. Никак.

i-rinat ★★★★★
(07.04.15 20:34:44 MSK)

Ссылка

Если ты скастуешь char* к int* — тогда будет зависить, а в твоем случае — нет.

anonymous
(07.04.15 20:44:26 MSK)

Ответ на: комментарий от anonymous 07.04.15 20:44:26 MSK

Распиши почему, т.к. все вышеизложенные посты говорят нам о противоположном.

~~Twissel~~ ★★★★★
(07.04.15 20:48:59 MSK) автор топика

Ответ на: комментарий от Twissel 07.04.15 20:48:59 MSK

Там говорят про размер char'а и кодировки, а не порядок байт. Если предположить что кодировка ASCII — то ничего от порядка байт не зависит, т.к. ты не разбираешь int по байтам прямым приведеним указателей или union'ами.

anonymous
(07.04.15 20:57:45 MSK)

Ответ на: комментарий от MyTrooName 07.04.15 20:12:43 MSK

Нет там такого типа.

(Хотя к 8-битным половинам char-a обратиться можно, с помощью особой магии, и в техасовских, например, доках они обтекаемо описываются словами «8-bit entities».)

alegz ★★★★★
(07.04.15 21:10:23 MSK)

Ссылка

Ответ на: комментарий от anonymous 07.04.15 20:57:45 MSK

Я вот об этом:

K&R C Вопрос (комментарий)

Если ты скастуешь char* к int* — тогда будет зависить, а в твоем случае — нет.

Но опять же, если нет обмена этими данными между машинами с разной «конечностью», то глубоко монохромно на порядок байт в языках среднего уровня.

Не вижу, чем каст мог радикально изменить картину, если char там по-старинке на 8 бит.

~~Twissel~~ ★★★★★
(07.04.15 21:17:23 MSK) автор топика
Последнее исправление: Twissel 07.04.15 21:18:17 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Stahl 07.04.15 14:04:34 MSK

Нахрена читать по байту если есть возможность читать словами?

это типичный случай преждевременной оптимизации. Современные процессоры всё равно читать по байтам не умеют, и будут читать словами. А компилятор это сам оптимизирует. Если в коде жёстко захордкорить, то появятся проблемы.

emulek ★
(08.04.15 10:56:50 MSK)

Ответ на: комментарий от i-rinat 07.04.15 18:34:21 MSK

Кстати, какой там сейчас state-of-the-art алгоритм для поиска многих строк сразу?

Понятия не имею - можешь найти, если хочешь. Я нихрена в этом не понимаю.

Можешь закодить его, если задача слишком простая.

Ну я закодю то, что считаю быстрым. Было было хорошо, если можно было с чем-то сравнить, но чет ничего, кроме говнища тормазного я в интернетах не нашел.

Если не лень можешь помочь поискать.

Собственно как будет время - запилю. И ещё пару вопросов - т.е. если у нас в словаре есть «ab», «abc», «abcd» - то какой у нас поиск жадный/нет?

~~TrueTsar1C~~
(09.04.15 12:28:49 MSK)

Ответ на: комментарий от Eddy_Em 07.04.15 18:39:36 MSK

построение дерева шаблонов

Что это?

Задача примитивное ленейное говно и даже бревна тут не надо, авось если ты решишь:

Какбэ как я вижу основную проблему - это ресет поиска после фейла. Т.е. на строке «abcdeeee» на поиске слова «abcdf» - мы будем ресетится на «*bcdeeee»->«**cdeeee» и т.д. Т.е. худний случай n*максимальная_длинна_слова_в_словаре.

И чёт поглядев на всякие корасики в википедии я так и не понял как они это решают, собственно как твоё дерево это решает?

~~TrueTsar1C~~
(09.04.15 12:34:13 MSK)

Ответ на: комментарий от TrueTsar1C 09.04.15 12:28:49 MSK

если у нас в словаре есть «ab», «abc», «abcd» - то какой у нас поиск жадный/нет?

Вообще без разницы. Можно считать это неопределённым поведением.

i-rinat ★★★★★
(09.04.15 12:36:36 MSK)

Ссылка

Ответ на: комментарий от TrueTsar1C 09.04.15 12:34:13 MSK

я так и не понял как они это решают

лалка анскильная. может, за тебя еще код написать?

MyTrooName ★★★★★
(09.04.15 12:38:20 MSK)

Ответ на: комментарий от emulek 08.04.15 10:56:50 MSK

это типичный случай преждевременной оптимизации.

Нет, эти типичный случай эмулека, аля «слышал звон, да не знаю где он».

Современные процессоры всё равно читать по байтам не умеют

Процессоры читают так, как ты читаешь в коде. И по байтам тоже.

и будут читать словами

Нет, будут читать тем, что ты напишешь.

А компилятор это сам оптимизирует.

Дак конпелятор или процессор? Ты уж определись. И да, конпелятор ничего не оптимизирует.

Если в коде жёстко захордкорить, то появятся проблемы.

Какие проблемы - чего «захордкорить»? Что ты несёшь.

Давай я тебе расскажу с чего в твоей башке эта херня про «нечитает» взялась. Не читает процессор память/n+1левелкеш не кешлайнами, но это никакого отношения к коду не имеет, ибо у тебя нет никакого доступа к памяти и читает твой код всегда л1. В дефолтных условиях.

А читает процессор так, как читаешь ты в коде. Ещё раз.

~~TrueTsar1C~~
(09.04.15 12:41:21 MSK)

Ссылка

Ответ на: комментарий от MyTrooName 09.04.15 12:38:20 MSK

лалка анскильная. может, за тебя еще код написать?

Ты его чтоли напишешь? Маловероятно, поэтому нахрен ты мне пишешь?

~~TrueTsar1C~~
(09.04.15 12:42:41 MSK)

Ответ на: комментарий от TrueTsar1C 09.04.15 12:34:13 MSK

И чёт поглядев на всякие корасики в википедии я так и не понял как они это решают, собственно как твоё дерево это решает?

Капец. И вот ЭТО вот еще что-то кукарекает за программирование?

А может царь вообще не настоящий?

anonymous
(09.04.15 12:44:42 MSK)

Ответ на: комментарий от TrueTsar1C 09.04.15 12:34:13 MSK

примитивное ленейное говно
худний случай n*максимальная_длинна_слова_в_словаре

Это называется квадратичная сложность.

чёт поглядев на всякие корасики в википедии я так и не понял как они это решают

Изучи для начала классику: http://en.wikipedia.org/wiki/Knuth–Morris–Pratt_algorithm

mix_mix ★★★★★
(09.04.15 13:01:12 MSK)

Ответ на: комментарий от anonymous 09.04.15 12:44:42 MSK

Да не, царь настоящий, он просто никогда не мог в CS и точно так же агрился на советы пойти учиться.

mix_mix ★★★★★
(09.04.15 13:02:55 MSK)

Ответ на: комментарий от mix_mix 09.04.15 13:01:12 MSK

Это называется квадратичная сложность.

Это не квадратичная сложность, алёша.

Изучи для начала классику: http://en.wikipedia.org/wiki/Knuth–Morris–Pratt_algorithm

Да ты я посмотрю прошаренный, балаболка. Нахрен ты эту херню выкатил? К чему вообще? Ты реально настолько туп, либо притворяешься?

Тут нет такой проблемы, ибо нет вообще ресета, нахрен ты высираешься, если нихрена не понимаешь в теме? Алёша.

При фейле сравнения начинается с i+1.

Напиши мне strstr() на кмп - я хоть поржу. Мне даже интересно, хватит ума у «понимателя» обогнать 2 цикла.

~~TrueTsar1C~~
(09.04.15 13:26:16 MSK)

Ответ на: комментарий от mix_mix 09.04.15 13:02:55 MSK

И тебе я даю возможность обосраться - ты мне пишешь, как и анонимус реплейс, т.е. просто дан key-value словарь, тебе надо заменить всех вхождения key на value.

Вперёд, ты же не просто кукарекаешь.

~~TrueTsar1C~~
(09.04.15 13:29:03 MSK)

Ответ на: комментарий от TrueTsar1C 09.04.15 13:26:16 MSK

Это не квадратичная сложность, алёша.

Рассмотрим худший случай. Возьмём строку длины n вида «aaa...aaa» и подстроку длины n/2 вида «aaa...aab». В итоге наивная strstr сделает (n/2)*(n/2) сравнений — внутренний цикл крутится по всей подстроке, внешний по каждому символу половины строки (дальше не имеет смысла) — что есть O(n^2). Обосрамс.

mix_mix ★★★★★
(09.04.15 13:42:24 MSK)

Ответ на: комментарий от TrueTsar1C 09.04.15 13:29:03 MSK

ты мне пишешь, как и анонимус реплейс, т.е. просто дан key-value словарь, тебе надо заменить всех вхождения key на value.

Смухлевать решил?

i-rinat ★★★★★
(09.04.15 14:02:05 MSK)

Ссылка

Ответ на: комментарий от TrueTsar1C 09.04.15 12:42:41 MSK

Ты его чтоли напишешь? Маловероятно, поэтому нахрен ты мне пишешь?

конечно, не стану писать. ты думал на меня свою работу спихнуть?

MyTrooName ★★★★★
(09.04.15 14:05:40 MSK)

Ссылка

Ответ на: комментарий от TrueTsar1C 09.04.15 13:26:16 MSK

Напиши мне strstr() на кмп - я хоть поржу

http://code.activestate.com/recipes/577908-implementation-of-knuthmorrispratt...

держи, коли гуглить не умеешь

MyTrooName ★★★★★
(09.04.15 14:12:41 MSK)

Ссылка

Ответ на: комментарий от TrueTsar1C 09.04.15 13:26:16 MSK

Мне даже интересно, хватит ума у «понимателя» обогнать 2 цикла.

Для чистоты эксперимента выложи свою реализацию strstr на двух циклах. Не хочу, чтобы ты кукарекал при замере производительности, что код плохой.

mix_mix ★★★★★
(09.04.15 14:15:49 MSK)

Ссылка

Ответ на: комментарий от TrueTsar1C 09.04.15 12:34:13 MSK

А царь-то не настоящий!

Подсказываю. Имеем слова: азбука, арбуз, арба, абразив, азалия (в реальности, ясен пень, слов 100500). Строим дерево: А -> {б,з,р} -> {а, б, р} и далее.

Теперь, скажем, надо нам найти слово арба. Берем дерево для буквы А (в нашем примере оно единственное), идем на ветку "ар", в этой ветке у нас в данном случае 1 узел: "арб" и "арб". Заходим в него и выбираем тот узел, где четвертая буква — "у", т.е. узел "арбу". И натыкаемся на "арбуз". Итого: четыре перемещения по дереву.

Такое элементарное дерево позволяет найти слово из N букв за максимум N перемещений! И похрен, сколько слов в оригинале. Но да, сначала тебе надо будет это дерево построить.

А если сделать какое-нибудь "красно-черное" дерево, так ваще N уменьшится...

~~Eddy_Em~~ ☆☆☆☆☆
(09.04.15 14:51:01 MSK)

Ответ на: комментарий от Eddy_Em 09.04.15 14:51:01 MSK

Такое элементарное дерево позволяет найти слово из N букв за максимум N перемещений! И похрен, сколько слов в оригинале. Но да, сначала тебе надо будет это дерево построить.

это называется «построить конечный автомат», который будет давать ответ, как и любой конечный автомат, за линейное время от размера входа.

А если сделать какое-нибудь «красно-черное» дерево, так ваще N уменьшится...

чиво?

MyTrooName ★★★★★
(09.04.15 15:15:57 MSK)

Ответ на: комментарий от MyTrooName 09.04.15 15:15:57 MSK

чиво?

таво

~~Eddy_Em~~ ☆☆☆☆☆
(09.04.15 15:17:15 MSK)

Ответ на: комментарий от Eddy_Em 09.04.15 15:17:15 MSK

я не царь, я знаю, что такое RBT, а если бы не знал, то гуглить умею. расскажи лучше, каким боком они относятся к задаче и как позволят «уменьшить N»

MyTrooName ★★★★★
(09.04.15 15:19:49 MSK)
Последнее исправление: MyTrooName 09.04.15 15:20:18 MSK (всего исправлений: 1)

Похожие темы