LINUX.ORG.RU

Стартап Taalas впаял нейросеть в кремний и получил рекордные 17 000 токенов в секунду

 , , , ,


0

2

Канадский стартап Taalas вышел из стелс-режима и показал первый продукт — специализированный чип HC1 с «захардкоженной» Llama 3.1 8B. Модель не загружается в память, а буквально впаяна в кремний: веса зашиты в транзисторы на этапе производства. Результат — 17 000 токенов в секунду на одного пользователя, что почти в 10 раз быстрее текущих решений на GPU, при 20-кратном снижении стоимости производства и 10-кратной экономии энергии.

Основал Taalas Любиша Байич — основатель другого чипмейкера, Tenstorrent, и бывший директор проектирования интегральных схем в AMD. Вместе с ним компанию запустили его жена Лейла Байич (экс-AMD, экс-ATI) и Драго Игнятович (экс-AMD, экс-Tenstorrent). После того как в Tenstorrent пришел легендарный чип-дизайнер Джим Келлер и занял кресло CEO, Байич ушел — и через полгода начал строить Taalas с радикально другой идеей.

Суть подхода — тотальная специализация. Вместо того чтобы запускать модели на универсальных GPU, Taalas для каждой модели производит отдельный чип. Из более чем 100 слоев микросхемы кастомизируются только два верхних металлических — в них встраивается так называемая mask ROM recall fabric, где хранятся веса. Это позволяет TSMC выпускать готовый чип за два месяца вместо шести, типичных для обычного ИИ-процессора. Архитектура объединяет память и вычисления на одном кристалле, что снимает потребность в HBM, продвинутой упаковке, 3D-стекировании и жидкостном охлаждении.

Пока «захардкоженная» Llama — далеко не фронтирная модель, а агрессивная квантизация до 3 и 6 бит заметно снижает качество по сравнению с GPU-бенчмарками. Taalas это признает и позиционирует продукт как бета-сервис для разработчиков, которые хотят поэкспериментировать с инференсом на субмиллисекундных задержках. Чип поддерживает настраиваемое контекстное окно и дообучение через LoRA-адаптеры, так что минимальная гибкость сохраняется.

Компания привлекла более $200 млн (последний раунд — $169 млн от Quiet Capital, Fidelity и полупроводникового ветерана Пьера Ламонда), но потратила пока лишь $30 млн — на зарплаты 24 сотрудникам и разработку. Следующий чип на платформе HC1 будет рассуждающей моделью среднего размера (ожидается весной), а к зиме на платформе второго поколения HC2 обещают запустить передовую LLM. Если Taalas удастся масштабировать подход на большие модели, у Nvidia и конкурентов вроде Cerebras и Groq может появиться неожиданный соперник — из тех, кто предлагает не ускорять старую парадигму, а отменить ее.

https://cont.ws/@jozefdon/3218279

Подробности на taalas.com

Перемещено dataman из hardware



Последнее исправление: dataman (всего исправлений: 3)

Суть подхода — тотальная специализация.

Вот только никто так делать не будет. Потому что это нужно делать железо под каждую нейронку, а сейчас на чипах можно запустить любой алгоритм.

Skullnet ★★★★★
()

Новость в целом интересная, но причём тут Линукс?

А так, надеюсь, что взлетит. Не потому что мне интересен данный девайс, но потому что если оно взлетит, и для запуска LLM’ок будет мессово юзаться это, это снизит дефицит GPU для тех, для кого они изначально нужны: для геймеров и тех, кто работает с 3D.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 1)

Ну ёптить!!! Это же РОВНО ТО О ЧЁМ ГОВОРИЛ Я когда-то и мне сказали, что это не есть хорошо. А оказывается так можно было?

PcheloBiaka
()
Ответ на: комментарий от Skullnet

Не скажи. Если это будет не llama8B и разумная цена, то прок есть.

mamina_radost
()
Ответ на: комментарий от Skullnet

Вот только никто так делать не будет. Потому что это нужно делать железо под каждую нейронку, а сейчас на чипах можно запустить любой алгоритм.

Ну, может llm-провайдеры будут делать модели на универсальных ГПУ, а вот продавать как промышленное решение за адекватную цену коробку для бизнеса – почему бы и нет? Если я правильно понял, они заявляют, что будет быстрее, дешевле и всего за два месяца.

MoldAndLimeHoney ★★
()
Последнее исправление: MoldAndLimeHoney (всего исправлений: 1)
Ответ на: комментарий от Skullnet

«Запускать любой алгоритм» нужно только разработчикам в процессе разработки, а так же всякой школоте которая тыкает это всё из праздного интереса. При промышленном применении, если таковое случится, снижение удельной стоимости в 10 (или в 100? из текста непонятно) раз перекроет все остальные незначительные недостатки. Решат сменить модель - просто закупят новое железо. И даже если они эти модели даже не будут почти эксплуатировать, они смогут купить 10 разных железок по цене одной универсальной. А если будут эксплуатировать и основной расход - вовсе не чипы, а электричество, то тем более чипы можно по мере надобности покупать новые безо всякого сожаления.

Впрочем я в очередной раз повторю что это всё ненужно.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 2)
Ответ на: комментарий от Skullnet

Вот только никто так делать не будет.

Не только будут так делать для встраиваемых систем, но и первые 2-10 слоев сети сделают «программируемыми», те с возможностью изменять веса. А остальные слои будут зашиты в кремний. Это позволить файнтюнить сеть сохраняя приличную скорость инференса.

Даже не 10, а всего 4 attention слоя оставить: q_proj, k_proj, v_proj, o_proj и уже будет быстрая встраиваемая и обучаемая сеть.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)
Ответ на: комментарий от Skullnet

Почаму? Какая нить облачная конторка покупает сотню (условно) разных железяк под всё что сейчас модно и продаёт услугу доступа, как общую - у нас есть всё что вам могёт понадобитьмя. При появлении новой моды, за 2 месяца к ним привезут новую железку. Как бизнес модель очень даже.

vtVitus ★★★★★
()
Последнее исправление: vtVitus (всего исправлений: 1)

Вот и нашлось применение для БМК.

Жду когда китайцы накопипастят чипов, которые могут налету речь в текст и обратно. Или там распознавание печатного или письменного текста. Или какой-нидь простой интеллект типа муравьиного или пчелиного. А если еще они какие-то слои сделают по подобию FPGA, ваще чума будет.

yax123 ★★★★★
()
Ответ на: комментарий от Skullnet

Вот только никто так делать не будет. Потому что это нужно делать железо под каждую нейронку

а минусы будут? пользователи же купят)

sergej ★★★★★
()

специализированный чип HC1 с «захардкоженной» Llama 3.1 8B

Давно пора. Причём, для данного юзкейса FPGA ещё лучше подошёл бы, если бы его можно было масштабировать на миллиарды параметров.

yvv1
()

Так вроде это на FPGA уже делали вполне успешно же. И модели менять можно. И даже FPGA + flash для отдельного хранения весов делали. Или нынешние нейросетки настолько разжирели, что таких FPGA, в которые они влезут ещё не придумали?

Stanson ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)