Написал статью про архитектуру GPT

3

1

Цель этой статьи — познакомить читателя с архитектурой Generative Pretrained Transformer, лежащей в основе современных языковых моделей.

Многие статьи, посвященные этой теме, страдают тем, что либо уходят в сплошную математику, но при этом недостаточно связно описывают общий вид архитектуры, либо описывают архитектуру слишком поверхностно и образно, что опять же не даёт возможности понять конструкцию как целое.

В этой статье я постараюсь дать достаточно подробное описание, что собой представляет «пайплайн» трансформера: как данные со входа проходят по этапам модели и приходят на выход. Я опишу упрощенную схему decoder-only трансформера, пропуская или сокращая те части, которые не принципиальны для понимания общего вида.

Статья: Generative Pretrained Transformer: общий взгляд на архитектуру.
Дополнительное погружение в технические детали: Generative Pretrained Transformer: конспект.

← Драйвера на C

Массово заменить ключ в jsonb →

Затем аналогично поступает блок FFN

Что такое FFN?

Beewek ★★★
(08.04.26 08:18:02 MSK)

Ответ на: комментарий от Beewek 08.04.26 08:18:02 MSK

Обычная классическая полносвязная сеть из 2+ слоёв, без хитростей, каждый нейрон слоя L1 связан с каждым из L2 и так далее.

LINUX-ORG-RU ★★★★★
(08.04.26 08:28:50 MSK)

Ответ на: комментарий от LINUX-ORG-RU 08.04.26 08:28:50 MSK

А как это FFN расшифровывается-то?

Beewek ★★★
(08.04.26 08:31:41 MSK)

Ответ на: комментарий от Beewek 08.04.26 08:31:41 MSK

Тупо feed forward network

Классический перцептрон
https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD

Каким был 70 лет назад, таким и остался. 50 Лет назад, были аппаратные нейросети, и по полу катались самообучаемые роботы. И сетки аппратные, на гидравлике даже были.

P.S. wandrien там это указал, просто чуть ниже.

LINUX-ORG-RU ★★★★★
(08.04.26 08:33:00 MSK)
Последнее исправление: LINUX-ORG-RU 08.04.26 08:45:00 MSK (всего исправлений: 2)

Все эти слова я уже где-то читал. Но их смысл ускальзывает от меня.
«что опять же не даёт возможности понять конструкцию»

Saakx ★
(08.04.26 08:36:06 MSK)
Последнее исправление: Saakx 08.04.26 08:37:03 MSK (всего исправлений: 2)

отстой mbr было лучше

anonymous
(08.04.26 08:49:38 MSK)

Ответ на: комментарий от LINUX-ORG-RU 08.04.26 08:33:00 MSK

Там щас кстати SwiGLU в качестве функции активации используется, так что перцептрон тоже уже не совсем старый-добрый, а прокачанный.

wandrien ★★★
(08.04.26 08:52:24 MSK) автор топика

https://www.linux.org.ru/articles/

CrX ★★★★★
(08.04.26 08:53:05 MSK)

Ответ на: комментарий от wandrien 08.04.26 08:52:24 MSK

Да это всё детали. Базово любая сеть любой сложности, это тупо лего. Любая сетка точечно рассматриваемая топологически примитивна, вся сложность начинается с фокусов, взяли перцептрон, порезали связи, вот новый тип сети, взяли три слоя средний уменьшили в двое, вуаля и автоэнкодер, взяли выхлоп из жопы сети и подали его в хлебало первому или самому же себе вуаля рекурентная, взяли тоже самое, но теперь выхлоп подаётся через раз, ещё новый тип, новое красивое название. А теперь в каждой из этих комбинаций 100500 функций активаций, а к некоторым вообще без активации, а теперь всё это ещё и между собой, а ещё сбоку прицепить обычную логику програмную, а ещё… ну и так далее.

Сложность появляется когда оно в комплексе, а реальная же работа, любой части, любой сети сводится к детскому рисунку из кружков и стрелочек с простейшей арифметикой. Но когда оно всё вместе, это да, там ёгого

так что перцептрон тоже уже не совсем старый-добрый, а прокачанный.

Это как в хеш таблице заменить обход списков при колиизии на деревья. Да, оно теперь работает по другому, но это как была хеш табля так и осталась, принцип не поменялся, так и тут. Фундаментально меняй функции активации на что угодно, или вообще убирай их, как был перцептрон так перцептроном и останется. Сети бывают разные, в смысле вообще, где-то SwiGLU будет как пятая нога кобыле. Иными словами оно не прокачанное, оно просто другое. Сети по большей части отличаются друг от друга не тем что одна хуже, а другая лучше, а тем что они тупо другие, под разные задачи.

LINUX-ORG-RU ★★★★★
(08.04.26 09:23:43 MSK)
Последнее исправление: LINUX-ORG-RU 08.04.26 09:26:33 MSK (всего исправлений: 1)

Без математики это всё всё равно практически ни о чём не говорит.

yvv1 ★
(08.04.26 09:40:43 MSK)

Ответ на: комментарий от LINUX-ORG-RU 08.04.26 09:23:43 MSK

P.S. Из за моей риторики и местами пафоса может показаться что я секу, но это не так, я балбес :) Сетки мне интересны, как алгоритм сам по себе, пока они небольшие, утилитарные, полезные в точечных делах, распознавание букавок и тому подобное тут я сам эксперементирую, но не на базе чего либо, а примитив сырой колупаю. Из генеративных разве что чистые автоэнкодеры и его мутации бредовые что в голову придут, для создания вариаций, ну и сортировка чего либо, классические применения сетей как таковых. Опять же по большей части в исследовательском русле, а не прикладном.

А вот к тому звездецу что творится вокруг завязанных на трансформеры у меня предвзятое бубнятонехорошее отношение, особенно от того что это натягивают как сову на глобус на всё и суют везде, что вызывает лишь недоумение и негатив.

LINUX-ORG-RU ★★★★★
(08.04.26 10:47:00 MSK)

Вначале подумалось, про стиль разметки дисков, а оказалась генеративная модель😂

REDDERa
(08.04.26 11:22:35 MSK)

Ответ на: комментарий от CrX 08.04.26 08:53:05 MSK

Похожие темы

а ты написал статью? :)

dataman ★★★★★
(08.04.26 11:46:17 MSK)

Ответ на: комментарий от dataman 08.04.26 11:46:17 MSK

Написал статью (2012)
а ты написал статью? (2007)

за 5 лет управился кто-то))

wandrien ★★★
(08.04.26 11:48:07 MSK) автор топика

Ответ на: комментарий от LINUX-ORG-RU 08.04.26 10:47:00 MSK

Не сортировка, а классификация или кластеризация. У «сортировка» в ит контексте есть другой смысл, что может вызывать путаницу

cobold ★★★★★
(08.04.26 12:27:50 MSK)

Скоро уже сжатие файлов промтами будет, емае

anonymous
(08.04.26 13:03:39 MSK)

Статья: Generative Pretrained Transformer: общий взгляд на архитектуру.

Светлой темы нет? А то глаза из глазниц вытекают.

X512 ★★★★★
(08.04.26 13:07:29 MSK)

Ответ на: комментарий от X512 08.04.26 13:07:29 MSK

Нету. Самому не нравится, но руки не дошли пока что настроить что-то другое.

В FF нажми «режим чтения», будет светлое.

wandrien ★★★
(08.04.26 13:10:08 MSK) автор топика

Ответ на: комментарий от X512 08.04.26 13:07:29 MSK

Светлой темы нет? А то глаза из глазниц вытекают.

Я Dark Reader'орм спасаюсь.

Dr64h ★★★★
(08.04.26 18:19:17 MSK)

Ответ на: комментарий от CrX 08.04.26 08:53:05 MSK

https://www.linux.org.ru/articles/

ОП, не ведись, это ловушка! Вон @lbvf50txt выпил слишком много кофе, запостил дамп сознания про го с опечатками в каждом предложении, над ним поглумились, перенесли, он бомбанул, в итоге в холодильнике на месяц за оскорбление чувств модераторов) Ну допустим перенесли вполне резонно, но морозить-то зачем. Бомбанул чел маленько, с кем не бывает. Ну допустим хоть на день, за день бы он остыл, но на месяц? Что это за процiдурка такая?

goingUp ★★★★★
(08.04.26 18:20:51 MSK)
Последнее исправление: goingUp 08.04.26 18:30:11 MSK (всего исправлений: 1)

Ответ на: комментарий от REDDERa 08.04.26 11:22:35 MSK

Вначале подумалось, про стиль разметки дисков, а оказалась генеративная модель😂

Причем про разметку было бы в 10 раз полезнее.

anonymous
(08.04.26 19:07:51 MSK)

Автор Contour Terminal в феврале вспомнил про свой проект https://endo-lang.org (C++23):

A cross-platform shell with F#-inspired functional programming.
What Is Endo?
Endo is an interactive shell and scripting language that combines familiar command-line conventions with ideas from functional programming — primarily F#. It runs natively on Linux, macOS, and Windows.

Среди прочего в https://endo-lang.org/roadmap/:

Endo includes a built-in AI agent that can read and edit files, run commands, search your codebase, execute Endo scripts, and connect to external tool servers via MCP.

Использует llama.cpp для локальных моделей.

Endo is under active development. The language, builtins, and APIs may change. Feedback and contributions are very welcome!

Не компилируется, но можете попробовать сами, если интересно. :)

dataman ★★★★★
(08.04.26 21:41:20 MSK)

← Драйвера на C

Development

Массово заменить ключ в jsonb →