LINUX.ORG.RU

Написал статью про архитектуру GPT

 , ,


3

1

Цель этой статьи — познакомить читателя с архитектурой Generative Pretrained Transformer, лежащей в основе современных языковых моделей.

Многие статьи, посвященные этой теме, страдают тем, что либо уходят в сплошную математику, но при этом недостаточно связно описывают общий вид архитектуры, либо описывают архитектуру слишком поверхностно и образно, что опять же не даёт возможности понять конструкцию как целое.

В этой статье я постараюсь дать достаточно подробное описание, что собой представляет «пайплайн» трансформера: как данные со входа проходят по этапам модели и приходят на выход. Я опишу упрощенную схему decoder-only трансформера, пропуская или сокращая те части, которые не принципиальны для понимания общего вида.

★★★
Ответ на: комментарий от Beewek

Тупо feed forward network

Каким был 70 лет назад, таким и остался. 50 Лет назад, были аппаратные нейросети, и по полу катались самообучаемые роботы. И сетки аппратные, на гидравлике даже были.


P.S. wandrien там это указал, просто чуть ниже.

LINUX-ORG-RU ★★★★★
()
Последнее исправление: LINUX-ORG-RU (всего исправлений: 2)
Ответ на: комментарий от wandrien

Да это всё детали. Базово любая сеть любой сложности, это тупо лего. Любая сетка точечно рассматриваемая топологически примитивна, вся сложность начинается с фокусов, взяли перцептрон, порезали связи, вот новый тип сети, взяли три слоя средний уменьшили в двое, вуаля и автоэнкодер, взяли выхлоп из жопы сети и подали его в хлебало первому или самому же себе вуаля рекурентная, взяли тоже самое, но теперь выхлоп подаётся через раз, ещё новый тип, новое красивое название. А теперь в каждой из этих комбинаций 100500 функций активаций, а к некоторым вообще без активации, а теперь всё это ещё и между собой, а ещё сбоку прицепить обычную логику програмную, а ещё… ну и так далее.

Сложность появляется когда оно в комплексе, а реальная же работа, любой части, любой сети сводится к детскому рисунку из кружков и стрелочек с простейшей арифметикой. Но когда оно всё вместе, это да, там ёгого

так что перцептрон тоже уже не совсем старый-добрый, а прокачанный.

Это как в хеш таблице заменить обход списков при колиизии на деревья. Да, оно теперь работает по другому, но это как была хеш табля так и осталась, принцип не поменялся, так и тут. Фундаментально меняй функции активации на что угодно, или вообще убирай их, как был перцептрон так перцептроном и останется. Сети бывают разные, в смысле вообще, где-то SwiGLU будет как пятая нога кобыле. Иными словами оно не прокачанное, оно просто другое. Сети по большей части отличаются друг от друга не тем что одна хуже, а другая лучше, а тем что они тупо другие, под разные задачи.

LINUX-ORG-RU ★★★★★
()
Последнее исправление: LINUX-ORG-RU (всего исправлений: 1)
Ответ на: комментарий от LINUX-ORG-RU

P.S. Из за моей риторики и местами пафоса может показаться что я секу, но это не так, я балбес :) Сетки мне интересны, как алгоритм сам по себе, пока они небольшие, утилитарные, полезные в точечных делах, распознавание букавок и тому подобное тут я сам эксперементирую, но не на базе чего либо, а примитив сырой колупаю. Из генеративных разве что чистые автоэнкодеры и его мутации бредовые что в голову придут, для создания вариаций, ну и сортировка чего либо, классические применения сетей как таковых. Опять же по большей части в исследовательском русле, а не прикладном.

А вот к тому звездецу что творится вокруг завязанных на трансформеры у меня предвзятое бубнятонехорошее отношение, особенно от того что это натягивают как сову на глобус на всё и суют везде, что вызывает лишь недоумение и негатив.

LINUX-ORG-RU ★★★★★
()
Ответ на: комментарий от CrX

https://www.linux.org.ru/articles/

ОП, не ведись, это ловушка! Вон @lbvf50txt выпил слишком много кофе, запостил дамп сознания про го с опечатками в каждом предложении, над ним поглумились, перенесли, он бомбанул, в итоге в холодильнике на месяц за оскорбление чувств модераторов) Ну допустим перенесли вполне резонно, но морозить-то зачем. Бомбанул чел маленько, с кем не бывает. Ну допустим хоть на день, за день бы он остыл, но на месяц? Что это за процiдурка такая?

goingUp ★★★★★
()
Последнее исправление: goingUp (всего исправлений: 1)
Ответ на: комментарий от REDDERa

Вначале подумалось, про стиль разметки дисков, а оказалась генеративная модель😂

Причем про разметку было бы в 10 раз полезнее.

anonymous
()

Автор Contour Terminal в феврале вспомнил про свой проект https://endo-lang.org (C++23):

A cross-platform shell with F#-inspired functional programming.
What Is Endo?
Endo is an interactive shell and scripting language that combines familiar command-line conventions with ideas from functional programming — primarily F#. It runs natively on Linux, macOS, and Windows.

Среди прочего в https://endo-lang.org/roadmap/:

Endo includes a built-in AI agent that can read and edit files, run commands, search your codebase, execute Endo scripts, and connect to external tool servers via MCP.

Использует llama.cpp для локальных моделей.

Endo is under active development. The language, builtins, and APIs may change. Feedback and contributions are very welcome!

Не компилируется, но можете попробовать сами, если интересно. :)

dataman ★★★★★
()