中意知识网 中意知识网

当前位置: 首页 » 常用知识 »

原创 为什么AI性能测试,5090和5090D没有区别?

众所周知,由于美国对华AI芯片出口限制,英伟达不得不针对大陆地区推出带有D后缀的消费级GPU,比如RTX4090 D和RTX5090 D。通常带D后缀的芯片在性能上都会有一些限制,例如RTX4090 D相比海外版的RTX4090,在芯片规模上缩水了11%,游戏和AI性能都有明显的差距,因此玩家们习惯把D后缀的型号称为“阉割版”,而没有D后缀的型号为“满血版”。

然而奇怪的是,英伟达最新的旗舰级型号RTX5090 D,却在硬件规格上和海外版的RTX5090一模一样,唯一区别是AI算力少了30%。更奇怪的是,在多项AI性能测试中,RTX5090 D和RTX5090的AI性能竟然没有区别。

这是知名科技博主“极客湾”做的测试,他们用Ollama部署了一个23B参数的通义千问2.5模型进行推理测试,结果5090D跑出了和5090几乎完全相同的成绩。比上一代旗舰RTX4090快了近50%。

如果说Ollama更吃显存带宽不吃核心算力,那么ULProcyon AI绘画测试又是怎么回事呢?5090D竟然还反超了5090,简直倒反天罡!这里不得不说一下,RTX4090由于不支持FP4,因此在FP4量化的模型测试中,落后RTX5090 D四倍还多。

同样,知乎大V林大大在Linux下做的测试显示,RTX5090D显卡FP16的能力相当突出,对比RTX4090最高有77%的增幅,最低也有34%增幅。

那有人要说了,AI推理和AI训练是两个东西啊,不能简单地用一个词“AI性能”笼统地概括。AI推理是在原有的模型上,给定输入然后计算输出的过程,这个过程其实不怎么消耗算力。尤其是现代AI模型(如LLM、AIGC生成模型)通常会对推理进行优化(如量化、剪枝等),以减少计算量。

而AI训练,是通过对大量给定数据的计算,提取特征,得出普遍规律的过程。这个过程非常消耗算力,AI算力的高低直接影响训练速度和模型收敛的效率。因此,RTX5090 D可能锁的是AI训练的性能,而非推理性能。

这个说法的确有一定道理。可是,在很多AI训练(微调)测试中,依旧还是测不出5090D那“本该消失”的30%性能。也许,可能,5090D只有在特别消耗核心算力的部分模型训练中才能看得出两者的区别。

那么可能的结论是什么呢?显存容量和带宽限制!

现代AI模型,尤其是大语言模型或高分辨率图像生成模型,首先对显存容量的需求非常高。显存容量不足会导致模型无法加载,或者需要与内存频繁数据交换,从而拖累整体的AI性能。英伟达虽然对RTX5090 D的AI算力进行了限制(减少30%),但是显存容量和显存带宽却未作限制。

RTX 5090 D搭载的32GB512bitGDDR7显存能够提供1792GB/s的带宽,这一点与海外版5090完全一致(美国只限制了GPU算力,没有限制显存带宽)。因此在应对现代AI模型,无论是推理还是训练,GPU根本就没有跑满情况下,显存上的优势就发挥了出来,领先上代RTX4090近50%合情合理(4090为24GB384bitGDDR6X显存,带宽1008GB/s)。尤其是在推理任务中,模型需要快速访问权重和输入数据,显存的高带宽可以显著提升推理效率。这也是RTX5090 D与RTX5090拉不开差距的重要原因。

然而,大多数AI应用场景,例如文案撰写、代码生成、机器翻译、机器人客服、数学推理、金融分析等,90%以上应用都是基于AI推理,即便有少量的训练也不过是模型微调而已。所以对于大多数希望通过购买消费级显卡来节省预算的AI用户来说,买RTX5090 D和RTX5090其实性能没有任何区别,5090D反而有质保方面的优势,是非常高性价比的选择。而真正需要进行AI训练的用户,还是推荐A100、H100这类的芯片,毕竟高复杂度的、企业级的应用效率才是第一位的。

未经允许不得转载: 中意知识网 » 原创 为什么AI性能测试,5090和5090D没有区别?