Долгожданная статья ученика Столярова о том, что rust-говно

Ответ на: комментарий от Reset 19.12.21 11:53:23 MSK

ээ, а куда ты денешь промежутки между байтами?
Они что пустые будут?
То есть идут символы
4 4 4 2 2 4 4 байта - как ты определишь шестой символ, не проверяя всей последовательности.

xmikex ★★★★
(19.12.21 12:01:24 MSK)

Ответ на: комментарий от Reset 19.12.21 11:53:23 MSK

Юникод это таблица на ~150000 символов. Очевидно, каждый символ без проблем влезает в int.

Ты ведь в курсе, что есть модифицирующие символы?

DarkEld3r ★★★★★
(19.12.21 12:02:06 MSK)

Ссылка

Ответ на: комментарий от Reset 19.12.21 11:56:48 MSK

там 100500 страниц

libicu не просто так столько весит

Harald ★★★★★
(19.12.21 12:02:42 MSK)

Ссылка

Ответ на: комментарий от xmikex 19.12.21 12:01:24 MSK

Еще раз, ты путаешь юникод со способами кодирования юникода. Для представления 150000 символов достаточно 18 бит или 3 байта. Информатика 10й класс :)

Reset ★★★★★
(19.12.21 12:04:16 MSK) автор топика

Ответ на: комментарий от Reset 19.12.21 12:04:16 MSK

что я путаю то? кодировка - это способ представления символов как раз, а не что-то другое. я не говорил за сам юникод, а за кодировки. Есть кодировки с переменной длиной символа - вот как там индексацию по строке делать?

xmikex ★★★★
(19.12.21 12:06:58 MSK)

Ответ на: комментарий от xmikex 19.12.21 12:06:58 MSK

вот как там индексацию по строке делать?

парсить от начала, как ещё

или индекс хранить

Harald ★★★★★
(19.12.21 12:07:31 MSK)

Ответ на: комментарий от Reset 19.12.21 12:04:16 MSK

ты суть вопроса понял, а в ответ фигню какую-то написал, про число необходимых бит.

xmikex ★★★★
(19.12.21 12:08:18 MSK)

Ответ на: комментарий от Harald 19.12.21 12:07:31 MSK

Ну он же говорит типа реализацию на коленке можно сделать поддержки.
Если реально с начала парсить, то это как по мне большие проблемы для реализации.

xmikex ★★★★
(19.12.21 12:10:00 MSK)

Ответ на: комментарий от xmikex 19.12.21 12:08:18 MSK

Я ответил на твой вопрос. Еще раз повторю. Делаешь внутреннее представление в котором каждый символ занимает фиксированный размер. Для вывода на печать и общения с внешним миром пишешь свои функции, которые, возможно, будут преобразовывать в utf-8.

Reset ★★★★★
(19.12.21 12:10:02 MSK) автор топика

Ответ на: комментарий от Reset 19.12.21 12:10:02 MSK

кодировки уже есть. какое внутреннее представление делаешь? надо реализовывать поддержки тех кодировок, которые уже есть.

xmikex ★★★★
(19.12.21 12:11:05 MSK)

Ответ на: комментарий от xmikex 19.12.21 12:06:58 MSK

Есть кодировки с переменной длиной символа - вот как там индексацию по строке делать?

Тебе не надо делать индексацию по кодированной строке. Это странная хотелка. Ты же не жалуешься на то, что перед тем как прочитать .txt.gz его надо распаковать.

Reset ★★★★★
(19.12.21 12:12:22 MSK) автор топика

Ответ на: комментарий от xmikex 19.12.21 12:10:00 MSK

за час можно максимум реализацию strlen() запилить для UTF-8, чтоб символы в строке считать

Harald ★★★★★
(19.12.21 12:12:37 MSK)

Ссылка

Ответ на: комментарий от xmikex 19.12.21 12:11:05 MSK

Любое внутреннее представление. Можешь сам его изобрести, можешь использовать utf-32. Кодировки сделаны для общения с внешним миром, как у тебя в программе строка устроена это твое личное дело, она может устроена как угодно, если нужна посимвольная индексация, то используй фиксированный размер. Внезапно, во всех готовых библиотеках сделано именно так. Ты что вообще оспорить пытаешься я понять не могу?

Reset ★★★★★
(19.12.21 12:14:06 MSK) автор топика

Ответ на: комментарий от Reset 19.12.21 12:12:22 MSK

странная хотелка? вырезать из строки подстроку получается странная хотелка, так как для неё нужны индекс начала и конца подстроки.

xmikex ★★★★
(19.12.21 12:14:38 MSK)

Ответ на: комментарий от xmikex 19.12.21 12:14:38 MSK

Еще раз, если тебе нужно работать с символами, то используй символьное представление, utf-8 таковым не является.

Reset ★★★★★
(19.12.21 12:15:26 MSK) автор топика

Ссылка

Ответ на: комментарий от Reset 19.12.21 12:14:06 MSK

ты сказал реализовать поддержку на коленке можно, будет PoC?

xmikex ★★★★
(19.12.21 12:15:35 MSK)

Ответ на: комментарий от xmikex 19.12.21 12:15:35 MSK

Конечно, разбить на символы это тривиальная задача.

Reset ★★★★★
(19.12.21 12:16:12 MSK) автор топика

Ответ на: комментарий от Reset 19.12.21 12:16:12 MSK

кого разбить? поддержку unicode кодировок и внутреннее представление ты за час же сделать можешь.

xmikex ★★★★
(19.12.21 12:17:24 MSK)

Ответ на: комментарий от xmikex 19.12.21 12:17:24 MSK

Ты вообще понимаешь что пишешь? Зачем мне все кодировки поддерживать? Мне хватит utf-8 для общения с внешним миром. Если ты за час это не способен написать, то ты профнепригоден.

Reset ★★★★★
(19.12.21 12:19:51 MSK) автор топика

Ответ на: комментарий от Reset 19.12.21 12:19:51 MSK

за час со всеми тестами, выловленными багами, документацией, опакечиванием?

Harald ★★★★★
(19.12.21 12:21:49 MSK)

Ссылка

Ответ на: комментарий от Reset 19.12.21 12:19:51 MSK

а я причём? я вообще не работаю и не работал никогда программистом.

xmikex ★★★★
(19.12.21 12:23:49 MSK)

Ссылка

Ответ на: комментарий от Xenius 18.12.21 06:55:27 MSK

где ты в ядре возьмёшь библиотеки?

Там же, где и в юзерспейсе. К ядру можно что угодно прилинковать статически и даже динамически, см. модули в линуксе.

vlad9486 ★
(19.12.21 12:31:34 MSK)

Ответ на: комментарий от vlad9486 19.12.21 12:31:34 MSK

а их случайно не придётся переписывать для возможности работы в качестве модуля ядра?

xmikex ★★★★
(19.12.21 12:34:40 MSK)

Ссылка

Ответ на: комментарий от xmikex 19.12.21 12:15:35 MSK

будет PoC?

Вот набросал PoC за 15 минут. Я его не тестировал, поэтому могут быть баги, но идея ясна:

https://ideone.com/ByPo7v

Reset ★★★★★
(19.12.21 13:36:25 MSK) автор топика

Ссылка

Ответ на: комментарий от peregrine 18.12.21 20:47:14 MSK

юникод из коробки идёт. А ни C, ни C++ этого так и не осилили

Вобще wchar_t в C90 уже был. char16_t и char32_t тоже есть.

Вон у меня ман wcsstr пишет conforming to C99.

Да, wchar_t - это формально не юникод и говорят некоторые компиляторы имеют право урезать его даже до 1 байта, но в линухах он всю жизнь вроде 4 байта, в винде кажется 2, что тоже сойдёт.

Или я не понял, какие фичи нужны для поддержки юникода? Каноническая сортировка и нормализация символов?

sergej ★★★★★
(19.12.21 13:46:59 MSK)
Последнее исправление: sergej 19.12.21 13:47:46 MSK (всего исправлений: 1)

Ответ на: комментарий от sergej 19.12.21 13:46:59 MSK

char16_t и char32_t тоже есть.

Вот, вот, даже строковые литералы есть с префиксами u и U :) Но вроде кто-то выше жаловался, что оно какое-то неполноценное и недоделанное :)

Reset ★★★★★
(19.12.21 13:49:15 MSK) автор топика

Ответ на: комментарий от Reset 19.12.21 12:14:06 MSK

можешь использовать utf-32

UTF-32 не решает задачу «один (видимый) символ - один инт», как ты хочешь.

DarkEld3r ★★★★★
(19.12.21 14:15:48 MSK)

Ссылка

Ответ на: комментарий от sergej 19.12.21 13:46:59 MSK

Сортировка, нормализация, гарантия того что он влезет в тип данных, даже если стандарт юникода изменится и вырастет в размерах.

peregrine ★★★★★
(19.12.21 15:02:01 MSK)

Ответ на: комментарий от Reset 19.12.21 13:49:15 MSK

Но вроде кто-то выше жаловался, что оно какое-то неполноценное и недоделанное :)

В С++ std::format должен обрабатывать Unicode строки при паддинге, и это потребовало достаточно много кода в реализации…

C очевидно просто игнорирует Unicode, поэтому в этом примере нет пробелов перед символом Санта Клауса: https://gcc.godbolt.org/z/ebca3Esrj

fsb4000 ★★★★★
(19.12.21 15:32:52 MSK)

Ссылка

Ответ на: комментарий от peregrine 19.12.21 15:02:01 MSK

Сортировка, нормализация

так это и в расте левой библиотекой с непонятным статусом

https://github.com/open-i18n/rust-unic/issues/177 например

sergej ★★★★★
(19.12.21 16:04:49 MSK)

Ссылка

На Лоре это постили уже? http://cmustdie.com/

JustAnotherUser
(19.12.21 16:30:20 MSK)

Ответ на: комментарий от JustAnotherUser 19.12.21 16:30:20 MSK

Было

Reset ★★★★★
(19.12.21 16:48:54 MSK) автор топика

Ссылка

Ответ на: комментарий от Reset 19.12.21 09:26:08 MSK

На коленке поддержка с нуля делается за час максимум.

Ну да, ну да.

WatchCat ★★★★★
(19.12.21 17:13:11 MSK)

Ссылка

Ответ на: комментарий от t184256 17.12.21 11:03:35 MSK

кто такой этот Столяров

Переиздание книг Столярова по программированию
https://www.linux.org.ru/news/doc/16184694/history

question4 ★★★★★
(19.12.21 19:03:18 MSK)

Ссылка

Ответ на: комментарий от ox55ff 17.12.21 10:49:40 MSK

нет, просто набросы. Судя по тексту он и Си не особо хорошо знает.

~~SR_team~~ ★★★★★
(20.12.21 09:12:50 MSK)

Ответ на: комментарий от Oberstserj 18.12.21 04:07:19 MSK

интервью с ним: https://youtu.be/o111yYPqLHU

~~Minona~~ ★★☆
(20.12.21 15:14:45 MSK)

Ссылка

Отличная статья!

Отличный вброс!

Прям видно, как местным растоманам НИБАМБИТ!!111!

shkolnick-kun ★★★★★
(20.12.21 21:07:24 MSK)

Ссылка

Ответ на: комментарий от ox55ff 17.12.21 10:49:40 MSK

Вот статья того же автора, на аналогичную тему, только про Си: http://cmustdie.com/

shkolnick-kun ★★★★★
(20.12.21 21:08:26 MSK)

Ответ на: комментарий от Legioner 17.12.21 15:47:24 MSK

компилятор будет вставлять вызовы из стандартной библиотеки в генерируемый код

Ты стандартную библиотеку с buuiltin-функциями не путаешь часом?

а если отключишь - то либо должен свои реализации принести, либо получишь ошибку линковки

Если я вызываю в коде printf, или что-то еще из стандартной библиотеки, то должна быть доступна реализация этого чего-то. Это нормально.

shkolnick-kun ★★★★★
(20.12.21 21:18:39 MSK)

Ответ на: комментарий от LikeABoss 17.12.21 16:53:39 MSK

Опять фанбой пытается обосрать кого-то, не изучив бэкграунд!

shkolnick-kun ★★★★★
(20.12.21 21:20:28 MSK)

Ссылка

Ответ на: комментарий от shkolnick-kun 20.12.21 21:18:39 MSK

Ты стандартную библиотеку с buuiltin-функциями не путаешь часом?

Не путаю. Сходу не приведу пример, но то, что компилятор заменяет ручной цикл копирования байтов на тупо вызов memcpy, видел. Тут, правда, флаг какой-то привели, возможно он поможет от такой оптимизации.

Если я вызываю в коде printf, или что-то еще из стандартной библиотеки, то должна быть доступна реализация этого чего-то. Это нормально.

А ещё если ты вызываешь в коде printf, то компилятор может его заменить на puts. И это я уже воспроизвёл прям щас на godbolt.org:

#include <stdio.h>

int main() {
    printf("Hello, world\n");
    return 0;
}

.LC0:
  .string "Hello, world"
main:
  push rbp
  mov rbp, rsp
  mov edi, OFFSET FLAT:.LC0
  call puts
  mov eax, 0
  pop rbp
  ret

~~Legioner~~ ★★★★★
(20.12.21 22:24:15 MSK)

Ссылка

Ответ на: комментарий от Legioner 17.12.21 11:22:01 MSK

Причём в C понятия nostd вообще нет, формально должна присутствовать вся амбальная библиотека

Но она может не использоваться -nostdlib

В C, кстати, простой цикл копирования байтов компилятор может заменить на memcpy

И отключается это -fno-builtin

~~MOPKOBKA~~ ★★★★★
(20.12.21 22:27:43 MSK)

Ответ на: комментарий от MOPKOBKA 20.12.21 22:27:43 MSK

Не работает твой способ.

Вот программка, компилирую на godbolt x86_64 clang 13.0.0 с -fno-builtin -nostdlib. Ниже выхлоп.

#include <stdlib.h>

struct foo_t {
  int x[1024];
};

__thread struct foo_t g_foo;

void bar(struct foo_t* foo) {
  g_foo = *foo;
}

int main() {
  struct foo_t* f = (struct foo_t*)malloc(sizeof(struct foo_t));
  bar(f);
  return 0;
}

bar(foo_t*): # @bar(foo_t*)
  push rbp
  mov rbp, rsp
  sub rsp, 16
  mov qword ptr [rbp - 8], rdi
  mov rsi, qword ptr [rbp - 8]
  mov rax, qword ptr fs:[0]
  lea rdi, [rax + g_foo@TPOFF]
  mov edx, 4096
  call memcpy@PLT
  add rsp, 16
  pop rbp
  ret
main: # @main
  push rbp
  mov rbp, rsp
  sub rsp, 16
  mov dword ptr [rbp - 4], 0
  mov edi, 4096
  call malloc
  mov qword ptr [rbp - 16], rax
  mov rdi, qword ptr [rbp - 16]
  call bar(foo_t*)
  xor eax, eax
  add rsp, 16
  pop rbp
  ret
g_foo:
  .zero 4096

Обрати внимание на call memcpy@PLT

~~Legioner~~ ★★★★★
(20.12.21 22:44:04 MSK)

Ответ на: комментарий от Legioner 20.12.21 22:44:04 MSK

А теперь смени компилятор на нормальный и удивись!

Reset ★★★★★
(20.12.21 23:17:09 MSK) автор топика

Ссылка

Ответ на: комментарий от shkolnick-kun 20.12.21 21:08:26 MSK

Показная объективность. Достаточно легко можно увидеть, что в статье про раст из каждой строчки сквозит презрение. В то время как в статье про си этого нет. Там есть описание недостатков, но не в формате поливания говном.

ox55ff ★★★★★
(21.12.21 07:57:08 MSK)

Ответ на: комментарий от SR_team 20.12.21 09:12:50 MSK

тут ссылку на его github кидали, там есть код на си.

xmikex ★★★★
(21.12.21 08:03:08 MSK)

Ссылка

Ответ на: комментарий от ox55ff 21.12.21 07:57:08 MSK

Я думаю проблема в том, что для того, чтобы конструктивно критиковать Rust нужно, во-первых, его сначала понять, а во-вторых неслабо напрячься, провести глубокое исследование вопроса и выяснить, как в принципе можно лучше решить все те проблемы, что решает Rust. Так как ничего из этого нет и не предвидится, то другой способ «критики» - просто ругать и поливать грязью, давить на эмоции. Ибо исходная цель - деструкция, а не конструктивная полемика.

freecoder
(21.12.21 10:44:35 MSK)