英伟达被曝 Blackwell GPU 装 72 个芯片后严重过热需重新评估

文章图片

英伟达 Blackwell GPU 过热问题及对服务器机架设计的影响、解决措施和延误情况,提及之前芯片良率设计缺陷问题、解决方法及最终产品生产和发货时间,以及对谷歌等客户的影响。


11 月 18 日消息,据知情人士透露,英伟达Blackwell GPU出现了严重的过热问题。当这些GPU在装有 72 个芯片的服务器中运行时,过热现象十分显著。这种情况下,这些设备预计每个机架消耗的能量可高达 120kW。过热问题带来了一系列的连锁反应,它严重限制了GPU的性能,同时还存在使组件损坏的巨大风险。这一状况迫使英伟达不得不多次重新评估其服务器机架的设计。而英伟达的客户们也陷入了担忧,他们害怕这些问题会成为绊脚石,阻碍他们在数据中心部署新芯片的计划,进而影响整个业务的推进。

企业微信截图_17319029781674.jpg


据相关报道,为了应对过热问题,英伟达已经向其供应商下达指令,要求对机架进行多次设计上的更改。该公司与供应商和合作伙伴展开了紧密无间的合作,共同开发工程修订版,致力于改善服务器的冷却系统。尽管在如此大规模的技术发布过程中,这类调整属于常见的标准做法,但不可否认的是,它们还是导致了时间上的延误,进一步推迟了原本预期的发货日期。


面对这一延误和过热问题,英伟达发言人做出了回应。他们表示正在与云服务提供商积极合作,并且将设计更改看作是正常开发流程中不可或缺的一部分。英伟达与云服务提供商和供应商之间的这种合作,其目的是确保最终的产品能够满足性能和可靠性的双重期望。毕竟,英伟达仍在持续努力,试图解决这些棘手的技术挑战。

企业微信截图_17319030279034.jpg

值得注意的是,在此之前,英伟达就曾因芯片的良率设计缺陷问题而不得不推迟Blackwell的生产。英伟达Blackwell B100B200 GPU采用了台积电 CoWoS - L 封装技术来连接它们的两个芯片。在这一设计中,包含了一个带有 LSI (局部硅互连) 桥的 RDL 中介层,这种独特的设计能够支持高达 10TB/s 的数据传输速度。这里需要强调的是,这些 LSI 桥的精确定位对于整个技术能否按预期顺利运行起着至关重要的作用。然而,实际情况却是,GPU芯片、LSI 桥、RDL 中介层和主板基板的热膨胀特性并不匹配,这一问题引发了翘曲现象和系统故障。为了解决这一难题,英伟达GPU硅的顶层金属层和凸块结构进行了修改,以此来提高生产的可靠性。

企业微信截图_17313831885232.jpg

经过一系列复杂且艰难的改进过程,最终修订的英伟达 Blackwell GPU在 10 月下旬才开始大规模生产。这也就意味着,英伟达要从明年 1 月下旬才能够开始发货这些芯片。而英伟达的客户,包括谷歌、Meta 和微软等科技巨头,他们依赖英伟达GPU来训练自己最强大的大语言模型。所以,Blackwell AI GPU的延误必然会对英伟达客户的计划和产品产生不可忽视的影响,可能会打乱他们原有的业务布局和发展规划。

亿配芯城 ICgoodFind 总结:


在科技产业的发展进程中,亿配芯城 ICgoodFind一直密切关注行业动态。英伟达 Blackwell GPU面临的过热和延误问题,以及之前的芯片设计缺陷,充分展现了高端芯片研发与生产过程中的复杂性和挑战性。这些问题不仅影响了英伟达自身的产品发布计划,也给像谷歌、Meta、微软这样的重要客户带来了困扰。希望英伟达能尽快彻底解决这些问题,确保产品质量和交付时间,同时也希望整个行业在面对类似技术难题时能从中吸取经验,保障产业的稳定发展,为科技进步持续助力。

相关文章

发表评论

评论

    暂无评论

©Copyright 2013-2025 亿配芯城(深圳)电子科技有限公司 粤ICP备17008354号

Scroll