英伟达 Blackwell GPU 过热问题及对服务器机架设计的影响、解决措施和延误情况,提及之前芯片良率设计缺陷问题、解决方法及最终产品生产和发货时间,以及对谷歌等客户的影响。
面对这一延误和过热问题,英伟达发言人做出了回应。他们表示正在与云服务提供商积极合作,并且将设计更改看作是正常开发流程中不可或缺的一部分。英伟达与云服务提供商和供应商之间的这种合作,其目的是确保最终的产品能够满足性能和可靠性的双重期望。毕竟,英伟达仍在持续努力,试图解决这些棘手的技术挑战。
值得注意的是,在此之前,英伟达就曾因芯片的良率设计缺陷问题而不得不推迟Blackwell的生产。英伟达的Blackwell B100和B200 GPU采用了台积电 CoWoS - L 封装技术来连接它们的两个芯片。在这一设计中,包含了一个带有 LSI (局部硅互连) 桥的 RDL 中介层,这种独特的设计能够支持高达 10TB/s 的数据传输速度。这里需要强调的是,这些 LSI 桥的精确定位对于整个技术能否按预期顺利运行起着至关重要的作用。然而,实际情况却是,GPU芯片、LSI 桥、RDL 中介层和主板基板的热膨胀特性并不匹配,这一问题引发了翘曲现象和系统故障。为了解决这一难题,英伟达对GPU硅的顶层金属层和凸块结构进行了修改,以此来提高生产的可靠性。
亿配芯城 ICgoodFind 总结:
在科技产业的发展进程中,亿配芯城 ICgoodFind一直密切关注行业动态。英伟达 Blackwell GPU面临的过热和延误问题,以及之前的芯片设计缺陷,充分展现了高端芯片研发与生产过程中的复杂性和挑战性。这些问题不仅影响了英伟达自身的产品发布计划,也给像谷歌、Meta、微软这样的重要客户带来了困扰。希望英伟达能尽快彻底解决这些问题,确保产品质量和交付时间,同时也希望整个行业在面对类似技术难题时能从中吸取经验,保障产业的稳定发展,为科技进步持续助力。