3月14日,清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布,开源大模型推理引擎“赤兔Chitu”,该引擎首次实现在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型,为国产AI芯片的广泛应用和生态建设带来了新的突破。
该引擎通过底层技术革新,首次实现了非H卡设备(包括英伟达Hopper架构之前的GPU卡及各类国产卡)对原生FP8模型的高效部署,摆脱对特定硬件的依赖,极大地降低了企业部署AI模型的门槛和成本。
清华大学翟季冬教授强调,赤兔凝结了团队多年并行计算与编译优化技术积累,目标是“弥合先进模型与多样化硬件之间的差距,让国产算力真正‘跑起来’,为中国大模型产业落地提供关键支撑”。清程极智CEO汤雄超表示:“赤兔的定位是成为连接多元算力与大模型应用的桥梁。我们不仅支持英伟达全系列GPU,还针对国产芯片深度优化,未来将陆续开源适配版本。”
在首期开源版本中,赤兔引擎部署DeepSeek-R1-671B满血版时,在A800集群的测试中,相比部分国外开源框架,GPU使用量减少50%的情况下推理速度仍有3.15倍提速。这意味着企业可以用更少的硬件资源获得更高的推理性能,极大降低了部署门槛和运营成本。
目前,赤兔引擎目标建立覆盖从纯CPU到大规模集群的全场景大模型部署需求,适配英伟达多款GPU及多款国产芯片。同时面对市场上不同的大模型算力优化需求,赤兔支持低延迟、高吞吐、小显存三方面优化,用最低成本实现最高性能。”基于这样的设计理念,集成赤兔引擎的大模型部署服务客户覆盖面非常广泛。
赤兔引擎从底层设计上便将“算力效率”作为首要优化目标,力求以更低资源消耗实现更高性能输出。
此外,清程极智推出基于赤兔的“推理一体机”,提供开箱即用部署方案及专业运维服务,进一步简化企业AI落地流程。
为加速生态建设,赤兔团队与多家国产芯片厂商展开合作,开放代码贡献通道,缩短硬件适配周期。“开源不仅是技术共享,更是为国产芯片‘抢时间’,当新模型或数据类型出现时,赤兔能助力国产芯片跟上国际节奏,缩小与国际先进芯片之间的‘时间差’。”汤雄超表示。