在现在东谈主工智能(AI)和高性能策画(HPC)日益依赖的环境中,图形处理单位(GPU)仍是成为数据中心的遑急策画资源。然则,最近的讲演指出,这些高价GPU在推行使用中的寿命可能仅为1到3年,给AI行业的经济带来了潜在的影响。
把柄Tech Fund援用的一位来自Alphabet的高等大家的不雅点,数据中心GPU的寿命受到其足下率的极大影响。当代数据中心中,GPU主要用于践诺AI试验和推理等高强度策画任务。在这种情况下,GPU常常处于高负荷景色,导致其磨损速率远超其他硬件组件。云策画劳动提供商(CSP)在运营中发现,GPU的足下率常常保管在60%至70%之间,这种高负荷的职责环境进一步镌汰了GPU的预期寿命。
在这么的足下率下,GPU的平均寿命一般在1到2年之间,最多可延迟至3年。这一不雅点固然尚未取得充分考据,但由于当代GPU的功耗常常达到700W或以上,确乎给硅片带来了繁多的压力,这使得这种意见具备一定的信得过度。
为了延迟GPU的使用寿命,指责其足下率被觉得是一种有用的武艺。然则,这么的作念法会导致GPU的贬值速率减缓,进而影响到成本回收的恶果,这关于大多量交易运营来说并不是理念念的聘任。因此,好多云劳动提供商更倾向于保管GPU的高足下率,以末端最好的投资禀报。
Meta在早些时候进行的一项推敲标明,他们在试验Llama 3 405B模子时,使用了由16,384个Nvidia H100 80GB GPU构成的集群。尽管该集群的模子浮点运算足下率(MFU)约为38%,但在54天的试验流程中,发生了419次不行预念念的故障,其中148次(约30.1%)是由多样GPU故障引起的,包括NVLink故障,而72次(约17.2%)则由HBM3内存故障引起。这标明,即使在相对较低的足下率下,GPU也濒临着显耀的故障风险。
Meta的推敲律例披露,若以其故障率为依据,H100 GPU的年度故障率约为9%,而在三年内的年度故障率则约为27%。然则,跟着GPU入伍时候的延迟,故障的频率可能会进一步增多,这给运营带来了不小的挑战。
跟着AI和HPC应用的握住发展,数据中心对GPU的需求只会抓续增长。然则,GPU的夭殇命周期却使得数据中心的运营爱戴濒临严峻熟悉。为了搪塞这一挑战,行业亟需建造愈加耐用的GPU架构,寻找有用的科罚和延迟GPU使用寿命的武艺。
与此同期,数据中心运营商还需要从头评估其硬件更新战略,以适应握住变化的工夫需乞降日益增长的策画负载。以传统三年折旧期为基础的成本投资筹办已显得不再现实,企业需转向短期投资回收筹办,以搪塞可能的现款流压力。
*免责声明:以上内容整理自网罗,仅供疏浚学习之用。如有内容、版权问题,请留言与咱们干系进行删除。