Стартап Taalas впаял нейросеть в кремний и получил рекордные 17 000 токенов в секунду

llama, нейронные сети, стартап, технологии, чипы

0

1

Канадский стартап Taalas вышел из стелс-режима и показал первый продукт — специализированный чип HC1 с «захардкоженной» Llama 3.1 8B. Модель не загружается в память, а буквально впаяна в кремний: веса зашиты в транзисторы на этапе производства. Результат — 17 000 токенов в секунду на одного пользователя, что почти в 10 раз быстрее текущих решений на GPU, при 20-кратном снижении стоимости производства и 10-кратной экономии энергии.

Основал Taalas Любиша Байич — основатель другого чипмейкера, Tenstorrent, и бывший директор проектирования интегральных схем в AMD. Вместе с ним компанию запустили его жена Лейла Байич (экс-AMD, экс-ATI) и Драго Игнятович (экс-AMD, экс-Tenstorrent). После того как в Tenstorrent пришел легендарный чип-дизайнер Джим Келлер и занял кресло CEO, Байич ушел — и через полгода начал строить Taalas с радикально другой идеей.

Суть подхода — тотальная специализация. Вместо того чтобы запускать модели на универсальных GPU, Taalas для каждой модели производит отдельный чип. Из более чем 100 слоев микросхемы кастомизируются только два верхних металлических — в них встраивается так называемая mask ROM recall fabric, где хранятся веса. Это позволяет TSMC выпускать готовый чип за два месяца вместо шести, типичных для обычного ИИ-процессора. Архитектура объединяет память и вычисления на одном кристалле, что снимает потребность в HBM, продвинутой упаковке, 3D-стекировании и жидкостном охлаждении.

Пока «захардкоженная» Llama — далеко не фронтирная модель, а агрессивная квантизация до 3 и 6 бит заметно снижает качество по сравнению с GPU-бенчмарками. Taalas это признает и позиционирует продукт как бета-сервис для разработчиков, которые хотят поэкспериментировать с инференсом на субмиллисекундных задержках. Чип поддерживает настраиваемое контекстное окно и дообучение через LoRA-адаптеры, так что минимальная гибкость сохраняется.

Компания привлекла более $200 млн (последний раунд — $169 млн от Quiet Capital, Fidelity и полупроводникового ветерана Пьера Ламонда), но потратила пока лишь $30 млн — на зарплаты 24 сотрудникам и разработку. Следующий чип на платформе HC1 будет рассуждающей моделью среднего размера (ожидается весной), а к зиме на платформе второго поколения HC2 обещают запустить передовую LLM. Если Taalas удастся масштабировать подход на большие модели, у Nvidia и конкурентов вроде Cerebras и Groq может появиться неожиданный соперник — из тех, кто предлагает не ускорять старую парадигму, а отменить ее.

https://cont.ws/@jozefdon/3218279

Подробности на taalas.com

Перемещено dataman из hardware

Ссылка

← Самый маленький в мире QR-код показали на фото

Разработчики электроники, отзовитесь →

Суть подхода — тотальная специализация.

Вот только никто так делать не будет. Потому что это нужно делать железо под каждую нейронку, а сейчас на чипах можно запустить любой алгоритм.

Skullnet ★★★★★
(23.02.26 15:55:43 MSK)

Новость в целом интересная, но причём тут Линукс?

А так, надеюсь, что взлетит. Не потому что мне интересен данный девайс, но потому что если оно взлетит, и для запуска LLM’ок будет мессово юзаться это, это снизит дефицит GPU для тех, для кого они изначально нужны: для геймеров и тех, кто работает с 3D.

CrX ★★★★★
(23.02.26 16:40:16 MSK)
Последнее исправление: CrX 23.02.26 16:40:40 MSK (всего исправлений: 1)

Ссылка

Ну ёптить!!! Это же РОВНО ТО О ЧЁМ ГОВОРИЛ Я когда-то и мне сказали, что это не есть хорошо. А оказывается так можно было?

PcheloBiaka ★
(23.02.26 17:40:14 MSK)

Ссылка

Ответ на: комментарий от Skullnet 23.02.26 15:55:43 MSK

Не скажи. Если это будет не llama8B и разумная цена, то прок есть.

mamina_radost ★
(23.02.26 19:23:19 MSK)

Ссылка

Ответ на: комментарий от Skullnet 23.02.26 15:55:43 MSK

Вот только никто так делать не будет. Потому что это нужно делать железо под каждую нейронку, а сейчас на чипах можно запустить любой алгоритм.

Ну, может llm-провайдеры будут делать модели на универсальных ГПУ, а вот продавать как промышленное решение за адекватную цену коробку для бизнеса – почему бы и нет? Если я правильно понял, они заявляют, что будет быстрее, дешевле и всего за два месяца.

MoldAndLimeHoney ★★
(23.02.26 19:31:48 MSK)
Последнее исправление: MoldAndLimeHoney 23.02.26 19:32:19 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Skullnet 23.02.26 15:55:43 MSK

«Запускать любой алгоритм» нужно только разработчикам в процессе разработки, а так же всякой школоте которая тыкает это всё из праздного интереса. При промышленном применении, если таковое случится, снижение удельной стоимости в 10 (или в 100? из текста непонятно) раз перекроет все остальные незначительные недостатки. Решат сменить модель - просто закупят новое железо. И даже если они эти модели даже не будут почти эксплуатировать, они смогут купить 10 разных железок по цене одной универсальной. А если будут эксплуатировать и основной расход - вовсе не чипы, а электричество, то тем более чипы можно по мере надобности покупать новые безо всякого сожаления.

Впрочем я в очередной раз повторю что это всё ненужно.

firkax ★★★★★
(23.02.26 19:50:01 MSK)
Последнее исправление: firkax 23.02.26 19:51:42 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от Skullnet 23.02.26 15:55:43 MSK

Вот только никто так делать не будет.

Не только будут так делать для встраиваемых систем, но и первые 2-10 слоев сети сделают «программируемыми», те с возможностью изменять веса. А остальные слои будут зашиты в кремний. Это позволить файнтюнить сеть сохраняя приличную скорость инференса.

Даже не 10, а всего 4 attention слоя оставить: q_proj, k_proj, v_proj, o_proj и уже будет быстрая встраиваемая и обучаемая сеть.

~~Obezyan~~ ☆
(23.02.26 19:51:37 MSK)
Последнее исправление: Obezyan 23.02.26 19:56:51 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Skullnet 23.02.26 15:55:43 MSK

Почаму? Какая нить облачная конторка покупает сотню (условно) разных железяк под всё что сейчас модно и продаёт услугу доступа, как общую - у нас есть всё что вам могёт понадобитьмя. При появлении новой моды, за 2 месяца к ним привезут новую железку. Как бизнес модель очень даже.

vtVitus ★★★★★
(26.02.26 11:30:08 MSK)
Последнее исправление: vtVitus 26.02.26 11:31:23 MSK (всего исправлений: 1)

Ссылка

Вот и нашлось применение для БМК.

Жду когда китайцы накопипастят чипов, которые могут налету речь в текст и обратно. Или там распознавание печатного или письменного текста. Или какой-нидь простой интеллект типа муравьиного или пчелиного. А если еще они какие-то слои сделают по подобию FPGA, ваще чума будет.

yax123 ★★★★★
(26.02.26 18:14:16 MSK)

Ссылка

Ответ на: комментарий от Skullnet 23.02.26 15:55:43 MSK

Вот только никто так делать не будет. Потому что это нужно делать железо под каждую нейронку

а минусы будут? пользователи же купят)

sergej ★★★★★
(26.02.26 18:20:16 MSK)

Ссылка

специализированный чип HC1 с «захардкоженной» Llama 3.1 8B

Давно пора. Причём, для данного юзкейса FPGA ещё лучше подошёл бы, если бы его можно было масштабировать на миллиарды параметров.

yvv1 ★
(26.02.26 18:31:57 MSK)

Ссылка

Так вроде это на FPGA уже делали вполне успешно же. И модели менять можно. И даже FPGA + flash для отдельного хранения весов делали. Или нынешние нейросетки настолько разжирели, что таких FPGA, в которые они влезут ещё не придумали?

Stanson ★★★★★
(26.02.26 18:43:32 MSK)