LINUX.ORG.RU

Подскажите кратко по GPT-3, как она кушает текст?

 


0

1

Вот смотрю статью: https://habr.com/ru/company/skillfactory/blog/562928/

Там на картинке показывается, что Input Embedding and Position Encoding получает подготовленный текст разделенный на слова (третья картинка).

Вопрос, это так, или же в сеть как-то все же подается текст без какой-либо предварительной обработки?

(Тихо сам с собой) Похоже здесь ответа не знают. Обычно, когда здесь задается простой или глупый вопрос, на него находятся желающие ответить, и потом еще долго обмусоливают глупость ТС. А этот вопрос вероятно слишком умный для этого форума.

victor79 ()
Ответ на: комментарий от victor79

Видел бы ты унылость своей провокации со стороны.

Мы похожи на форум лингвистов? Лето. СПВ в отпуске.

Это открытая штука? Возьми и посмотри дальше картинок в документации. Закрытая? Тем более при чем тут мы.

t184256 ★★★★★ ()

Эталонную реализацию GPT3 так и не открыли, поскольку её без Илончика, которого тут принято ругать, уже делали, в отличии от GPT2. Единственное что ты можешь по ней почитать, это вот этот документ. А поскольку всё это богомерзкий блоб ещё и в облаке, то оно мало меня интересует как именно реализовано. Вообще ЕМНИП там резаться всё обязано просто, но что именно они включают в свою модель GPT3, я бегло смотрел. GPT2 это немного больше чем нейросеть.

peregrine ★★★★★ ()
Последнее исправление: peregrine (всего исправлений: 2)
Ответ на: комментарий от peregrine

Сбер сделал свою копию этой штуки и назвал ее ruGPT-3 - откуда то взяли исходники.

Мне же хочется сравнить смысл этой штуки с теми смыслами которые у меня, пока без особого вдавания в глубь.

Я до какого то момента думал, что там типа как и у меня, просто прогнозирование потока (It is the third-generation language prediction model), только нейронками. Но на том посте отображено что туда отправляют в виде отдельных слов. Плюс люди в теме GPT предпочитают мерять свои системы по показателю «перплексия», который включает в себя термин «размер словаря».

victor79 ()
Ответ на: комментарий от victor79

Не сделал. Сбер попробовал свою реализацию сделать согласно GPT2 и документу на который я тебе дал ссылку. Прикол только в том, что даже у сбера суперкомпа не хватило чтобы обучить такую же здоровую сеть как GPT3, потому они отказались от других языков, кроме русского и раза в 2 меньше нейронов засунули туда сразу сделав её тыквой для целого ряда задач, вроде машинного перевода. Оригинал вроде мультиязычен.

Я до какого то момента думал, что там типа как и у меня, просто прогнозирование потока

Нет конечно, там немного сложнее архитектура, по сути она не отличается от архитектуры gpt2, только отдельные её части сделали более «крутыми».

Плюс люди в теме GPT предпочитают мерять свои системы по показателю «перплексия»

Ну как-то же надо мерить. По сути то вариантов у нас мало, а моделька по сути вероятностная, так что перплексией.

peregrine ★★★★★ ()
Ответ на: комментарий от peregrine

Простой вероятностью проще - сколько из скольки символов сумело спрогнозировать от тестовой выборки. Но это можно только если по байтно все считать, а не с разбивкой по словам.

Если же GPT выдает результат так же по словам, а не по символам, то для этой GPT особо не померять простой вероятностью, и значит с моей схемой ее никак не сравнить.

victor79 ()
Ответ на: комментарий от victor79

Постой, а как ты по символам собрался нейронку пытаться контексту обучить? Там же идея чтобы оно смысл пыталось подбирать вероятностно, а не просто буквы.

peregrine ★★★★★ ()
Ответ на: комментарий от peregrine

Так если букв много, то они и образуют слова и смыслы. А ГПТ, она же рекурентная, вот и пускай бы копила в себе буквы до просветления.

А так получается, что у сетки должно быть по отдельному входу на каждую позицию буквы в слове. Т.е. некоторые входы используются чуть ли не каждый раз, а некоторые раз на десять слов. Так? Да и сами буквы как там кодируются, то же не понятно. Битами, или создается индекс переконвертации, т.к. индексы букв избыточны.

Глубоко копать пока не вижу смысла, мне больше для того, что аргументировать что у сеток такие-то возможности и проблемы, а у меня такие-то.

Оригинал вроде мультиязычен

Кстати, оригинал вроде как англоязычен. Иначе бы в русском инете изобиловали бы примеры ее изъяснений. А так у нас яндекс балаболку запустил, т.к. английская русский не понимает.

Что опять же, может быть причиной и следствием, что символы они кодируют отдельным входом на каждый вариант символа. Юникод кодировать это 65 тыс входов. А только английский это максимум 128 входов.

victor79 ()
Последнее исправление: victor79 (всего исправлений: 1)
Ответ на: комментарий от victor79

А так получается, что у сетки должно быть по отдельному входу на каждую позицию буквы в слове. Т.е. некоторые входы используются чуть ли не каждый раз, а некоторые раз на десять слов. Так? Да и сами буквы как там кодируются, то же не понятно. Битами, или создается индекс переконвертации, т.к. индексы букв избыточны.

вроде не так, ознакомься всё же с докой. Она не очень большая.

Глубоко копать пока не вижу смысла, мне больше для того, что аргументировать что у сеток такие-то возможности и проблемы, а у меня такие-то.

Это как раз глубоко надо копать

Кстати, оригинал вроде как англоязычен. Иначе бы в русском инете изобиловали бы примеры ее изъяснений. А так у нас яндекс балаболку запустил, т.к. английская русский не понимает.

Она платная, при том её не продают никому, так как M$ купила эксклюзивную лицензию, а остальные могут только сервис купить и то не каждый, а только кому согласятся продать.

peregrine ★★★★★ ()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)