
最近一家叫Taalas的芯片公司横空出世,激勉行业体恤。 2023年树立的多伦多初创公司Taalas,由芯片行业资深东说念主士Ljubisa Bajic等东说念主创立,其凭借一款HC1芯片搅拌了AI硬件市集的口头。这家公司跳出了传统AI硬件的想象想路,将AI大模子的权重班师蚀刻到芯片的金属互连层中,罢了了极致的存算合一,让芯片的推理速率达到17000 tokens/秒,远超英伟达H200的约230 tokens/秒、B200的约2000 tokens/秒。这一翻新作念法,也让行业运转从头想考:

最近一家叫Taalas的芯片公司横空出世,激勉行业体恤。
2023年树立的多伦多初创公司Taalas,由芯片行业资深东说念主士Ljubisa Bajic等东说念主创立,其凭借一款HC1芯片搅拌了AI硬件市集的口头。这家公司跳出了传统AI硬件的想象想路,将AI大模子的权重班师蚀刻到芯片的金属互连层中,罢了了极致的存算合一,让芯片的推理速率达到17000 tokens/秒,远超英伟达H200的约230 tokens/秒、B200的约2000 tokens/秒。这一翻新作念法,也让行业运转从头想考:把大模子班师刻进芯片,究竟是摧毁AI硬件瓶颈的新标的,照旧受限于工夫迭代的小众尝试?
01烧毁通用性,换极致的性能与能效
Taalas的HC1芯片,现实上是澈底遗弃“一颗芯片跑所有模子”的通用蹊径,转向“为特定模子定制硅结构”。这款芯片摄取台积电6nm工艺和Mask ROM工夫,将模子权重班师硬编码在硅片上,从物理层面排斥了盘算与存储之间的数据搬运,大幅破解了困扰行业的内存墙问题。同期,它抛弃了液冷决策和HBM显存,改用空气冷却,在贬抑功耗的同期也减少了硬件老本,配套的软件栈也因模子权重和结构的硬件固化变得极度简化,无需复杂的优化层,进一步普及了性能和能效比。
这份极致的定制化,让HC1芯片在性能和老本上展现出显赫上风:其token处理速率达到英伟达最强GPU的近10倍,硬件老本仅为传统GPU决策的1/20,功耗也降至1/10。但与之相伴的,是通用性的齐备捐躯——HC1芯片仅能运行特定的Llama 3.1 8B模子,任何模子的更新迭代,王人意味着芯片需要从头流片。虽然,这种极点专用化也能蔓延到更大的模子。Taalas 给出了他们对 DeepSeek R1 671B 的模拟数据。671B 参数的模子需要约莫 30 颗芯片协同使命,每颗芯片承载约 20B 参数(摄取 MXFP4 形势,并将 SRAM 分散到零丁芯片以提高密度)。30 颗芯片意味着 30 次增量流片,但 Bajic 指出由于每次只改两层掩模,增量流片老本并不高。
这一脾气也决定了Taalas的市集定位,它并非要成为“下一个英伟达”,而是对准AI推理的细分要道,成为该限度的专用供应商,其想路与Groq推出的LPU不异,且在专用化的说念路上走得更远。
现在Taalas的生意模式仍在探索中,主要有自建基础规律提供API劳动、班师销售芯片、与模子开发者配合定制专用芯片三种可能。而这一极点专用化的决策能否被市集选择,主要取决于特定愚弄场景对蔓延的敏锐进度,以及模子本人的耐久自如性。尽管存在澄澈的局限性,但对于高频金融交往、自动驾驶、军事装备等对蔓延高度敏锐且模子相对自如的场景,HC1芯片的工夫决策仍具备不可替代的价值。
02推理芯片的赛说念,多元工夫蹊径的探索
在AI硬件限度,GPU在检修要道的上风依旧无可撼动,但在推理要道,GPU却骄贵了“贵且慢”的短板,这也让推理芯片成为弥远初创企业的翻新赛场。除了Taalas的硬编码决策,行业内还出身了多种工夫蹊径,各家王人在通过烧毁某一传统想象身分,疏导推理要道的性能突破,造成了各具特色的工夫探索。
Taalas选择烧毁软件,走硬连线的蹊径,将模子的权重和数据流班师变成物理连线,在其想象逻辑中,软件是耿介的支出,教导集更是一种销耗,甚而连编译器王人无需配备,模子详情后便班师流片。这种想象让芯片的功耗和老本压终点低,但容错率也降为0,模子的任何变动王人会让芯片失去使用价值。
Etched选择把架构刻进芯片。他们的第一块AI芯片是一种专用的集成电路(ASIC),宣称在AI大谈话模子(LLM)推理方面打败了英伟达的H100。由于它是ASIC,是以Etched需要把transformer架构刻蚀在芯片上。通过把Transformer的盘算逻辑,属眼力机制、矩阵乘法、激活函数,班师硬编码进芯片的电路想象中,效力罢了了指数级普及。但这同期也意味着齐备丧失活泼性:无法运行轮回神经蚁集(RNN),无法跑保举系统模子,无法作念任何非Transformer的AI任务。
Groq则推出了专属的LPU(谈话处理单元),摄取纯SRAM架构,抛弃了硬件调换器、缓存一致性条约和分支权衡等传统想象。其中枢逻辑是让硬件保合手100%的详情味,数据的传输和运算全靠编译器在软件层面提前进行周期级的精准权略。这一决策让芯片在批处理(Batch=1)时的推理速率极快,而Groq的中枢竞争力,也并非芯片本人,而是能调换海量并行教导的编译器软件。
Cerebras的中枢居品WSE(晶圆级引擎),跳出了传统的芯片切割想路,班师将整块晶圆行为一颗大芯片,晶圆上集成了海量的SRAM和盘算中枢。该想象的底层逻辑,是从物理层面处罚芯片间数据传输的内存墙问题,毕竟芯片间的数据交互是速率最慢、能耗最高的要道。这一决策让芯片得到了无敌的带宽,但也让制造、散热、容错的物理工程难度达到了极致。
Tenstorrent(由芯片大神Jim Keller创立)则选择拥抱开源与解耦,其蹊径是RISC-V教导集搭配矩阵盘算单元(Tensix),打造高度可编程的数据流架构。这家企业亦然四家之中最不“ASIC”的存在,Jim Keller合计,AI算法仍处于快速迭代的阶段,硬件想象毫不成写死,因此摄取活泼的RISC-V教导集处理约束流,再通过异构蚁集将千千万万个小芯片贯穿起来。这一决策让芯片更接近“通用盘算机”,其赌点在于异日的AI并非单一的Transformer架构,而是会发展为包含多量条目判断、逻辑推理的复杂软件工程。
03回望历史:固化硬件的训戒,不同层级的绑定风险
把规范刻进硬件的想路,并非Taalas始创,在科技发展史上早有前例,而这些前例的盛衰,也为大模子刻进芯片的决策提供了进军的参考。
上世纪90年代末的3dfx Voodoo显卡,曾是3D图形限度的标杆,其到手与失败王人源于团结个想象逻辑——将3D渲染的智力齐备硬件化。它把3D游戏的光栅渲染智力(顶点矩阵、光照、贴图等盘算)作念成“固定管线”班师刻死在电路中,专款专用的想象让其在3D游戏运行上的速率碾压同期居品,成为3D显卡的代名词。但到了1999年之后,开发者运转探索更丰富的3D成果,如水景反光、皮肤质感等,而Voodoo显卡因硬件固化无法撑合手这些新功能,最终被推出“可编程着色器”的英伟达GeForce GPU取代,走向歇业并被英伟达收购。
2016-2018年,AI限度的主要算法是用于图像识别的CNN(卷积神经蚁集),一渊博芯片创业公司针对CNN的盘算模式,在硬件上想象了专诚的“卷积加快引擎”,这类芯片在处理东说念主脸识别、自动驾驶的图像识别任务时,速率快、能耗低,与如今Taalas的想路高度不异。但2017年《Attention is All You Need》的发布,以及2018年BERT的横空出世,让大模子的底层数学逻辑从“局部卷积”澈底转向“全局自属眼力机制”,那些将CNN逻辑刻死在芯片里的企业,因硬件衰退通用矩阵盘算才气,运行Transformer架构的效力极低,甚而无法运行,这也让第一波AI芯片潮中,大部分专注特定视觉算法的初创公司消极退场。
对比这两个案例与Taalas的决策不错发现,三者的硬件固化进度存在现实互异:Voodoo显卡固化的是渲染管线,即便工夫迭代,惟有仍运行3D游戏它依然能使用,仅仅画面成果落伍;CNN芯片固化的是算法,东说念主脸识别等传统场景中它依旧能说明作用,仅仅适用场景大幅收窄;而Taalas固化的是特定的模子,一朝模子更新,芯片便会班师报废。这种极致的绑定,也让Taalas的决策背上了最大的风险——它赌的是AI算法依然参预“平台期”,架构上难以再有突破性跳跃,但现实是,面前AI模子的迭代周期甚而以周盘算,惟有行业竞争不住手,模子的尺度就无从谈起,前沿AI限度的工夫变化,深入是悬在这款芯片头上的达摩克利斯之剑。
04并非普适决策,却在特定场景中具备价值
从前沿AI研发的角度来看,将大模子刻进芯片的工夫蹊径澄澈并不可行,但这并不料味着该决策毫无市集,在多量模子需求相对固定的场景中,它正巧能处罚大模子推理蔓延过长的痛点,展现出私有的愚弄价值。
工业限度中,大模子下车间成为趋势,好多场景并不需要性能顶尖的大模子,只需用蒸馏后的轻量模子(如qwen2.5)就能处罚传统软件定制化开发的问题,这类场景对模子的自如性要求远高于迭代速率,将轻量模子刻进芯片,能完好处罚推理蔓延的问题;政务系统的大模子愚弄中,部署后闲居会断开外网,模子本人无法在线更新,此时将模子固化为硬件,后续的模子更新只需替换硬件,反而比软件更新更方便;破钞电子限度,翻译、TTS等小模子若是作念成专用芯片并集成进手机等开辟中,能为开辟提供保底的离线智能才气,即便后续出现更优的模子,也能自高用户的基础需求,同期比拟手机班师运行小模子,专用芯片还能大幅普及开辟的续航才气。而在对蔓延和离线运行才气有极致要求的突出场景中,把大模子刻进芯片的决策更是展现出不可替代的上风,成为这些限度的最好选择之一。在智能驾驶限度,车辆遭逢临时修路、交警现场教导等突发情状时,需要的是低于1毫秒的“本能逻辑推理反射”,传统自动驾驶芯片仅擅长快速图像识别,无法处理这类复杂的逻辑推理,而云表大模子的反应又存在蔓延,固化了大模子的专用芯片,能罢了腹地的极速推理,应付种种突发情状;在高频量化金融限度,好意思联储讲话、非农数据、企业财报等信息的发布时常随同市集的快速波动,专用芯片能以极高的速率,快速理会信息,判断市集走向并革新为交往信号,极度于为量化交往开挂;在军工限度,无需联网、固化在物理硬件中的大模子芯片,即便身处断网的“信息孤岛”,也能凭借出厂时的巨大参数,零丁进行极速的计谋分析和守密决策。
同期,东说念主们也无需惦念固化在芯片中的大模子会因无法迭代,导致常识永远停留在出厂阶段。现实上,芯片固化的仅仅模子本人的架构和权重,模子无法再进化,但它的逻辑推理、常识检索才气依旧保合手顶级;况兼刻入芯片的大模子并非失去联网才气,仍可通过联网获取最新信息,进行分析和问题处罚,仅仅不再通过模子迭代罢了才气升级。
05争议与异日可能性:一场对于迭代周期的博弈
把大模子刻进芯片的决策,其异日的发展出息,将围绕着迭代周期和老本的博弈张开,这亦然行业对该决策的主要争议点。
Taalas的竞争力之一,是宣称能将“大模子革新为定制芯片”的周期,从传统的一年裁减至两个月,同期因遗弃了郁勃的HBM芯片,摄取6nm工艺的专用芯片,硬件老本仅为英伟达H100等GPU决策的1/20。从老本角度来看,这一决策的上风十分澄澈,按照17000tps的处理速率盘算,单颗HC1芯片的处理才气堪比英伟达的8卡劳动器,惟有单芯片总老本不特出1万好意思元,就具备极强的市集竞争力。
真实的问题在于迭代周期,即便两个月的流片周期依然大幅裁减,但面前AI模子的迭代基本以月为单元,两个月的时候有余竞争敌手推出新一代模子,芯片刚量产就靠近落伍的时局,这亦然该决策最致命的短板。此外,将软件时间迭代最快、最不自如的模子,绑定为硬件时间迭代最慢、最自如的对象,这种作念法现实上是捐躯了工夫的概括性,疏导短期内亮眼的性能数据,这亦然行业对该决策的主要质疑。
不外,Taalas为芯片想象了LoRa挂载才气,一定进度上能弥补模子无法迭代的短板;同期,该决策的现实是一个经济学问题,跟着大模子工夫的发展,其架构和才气终将贴近极限,模子的更新周期也会冉冉变长,当模子迭代速率慢于芯片的流片速率时,这一决策的经济价值便会突显。Taalas的赌点,恰是大模子工夫会参预发展停滞期,当工夫进修、模子无需时时更新底座时,其提前布局的专用芯片决策,便能成为业界最初的存在。
06结语
把大模子刻进芯片,并非能颠覆AI硬件市集的普适性工夫蹊径,在前沿AI研发限度,因模子的快速迭代,这一决策的局限性被无尽放大,难以成为主流。但不可否定的是,Taalas的尝试为AI芯片的发展提供了全新的视角,其捐躯通用性疏导极致性能和能效的想路,切中了AI推理细分要道的市集需求,为存算合一、定制化硬件的想象标的提供了进军参考。
这一工夫蹊径的异日开云体育(中国)官方网站,终究取决于AI模子的迭代速率与行业场景需求的均衡。当大模子工夫参预稳按期,那些对蔓延、离线运行有极致要求的固定场景,终将成为大模子专用芯片的市集;而即便工夫迭代深入保合手高速,这一决策的翻新想路,也会股东行业约束探索更高效的AI硬件想象,让AI硬件的发展朝着多元化、场景化的标的约束前进。