机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 100|回复: 0

维修英伟达AI芯片的业务 证实了国产昇腾的无能

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
189178
发表于 4 天前 | 显示全部楼层 |阅读模式
美国政府禁止英伟达(Nvidia)高端AI芯片出口美国,导致走私盛行,且在中国市场催生一项理论上本不该存在的业务需求:维修先进的英伟达AI芯片。
路透社报导,深圳有两家维修公司,主要维修那些通过各种渠道流入中国的英伟达芯片,这些芯片包括H100图形处理器(GPU)、A100 GPU以及一系列其它芯片。这两家公司表示,目前约有十几家公司提供类似的维修服务。

早在H100发布之前,美国当局就已于2022年9月禁止出口到中国,原因是美国担心中利用这些高端芯片发展军事和监控技术。该芯片的前身A100也在上市两年多后被同时禁止出口到中国。
“维修需求确实很大。”一家公司联合创办人表示。该公司已为英伟达游戏GPU芯片提供维修服务长达15年,并于2024年底开始接纳AI芯片。
由于业务发展良好,该公司创办人成立一家新公司来处理这些订单。目前,该公司每月可维修多达500块英伟达人工智能芯片。中国社交媒体广告显示,该公司的设施包括一个可容纳256台服务器的房间,模拟客户的资料中心环境,以进行测试和验证维修效果。

自去年年底以来,维修业的快速增长从另一方面证实英伟达芯片被大量走私到中国的说法。
由于担心高端英伟达产品大规模走私到中国,美国两党议员都提出法案,要求这些高端芯片必须具备被追踪功能,以便在芯片售出后确定其地理位置。川普(特朗普)政府本周提出的AI蓝图也支持这个想法。
根据周三发布的最新AI蓝图,美国商务部将牵头制定新的芯片制造子系统出口管制措施,以弥补目前主要系统出口限制措施中的“漏洞”。
商务部也将牵头加强对美国出口芯片最终用户的监控,并探索使用新的芯片位置验证功能,以将他们排除在“关注国家”之外,“关注国家”通常指共产中国、伊朗、朝鲜和俄罗斯等。

英伟达芯片维护生意的火爆,从一个侧面也凸显尽管华为公司推出新产品,但英伟达先进GPU芯片仍然在中国更具需求。
在中国,英伟达无法为禁运产品提供维修或更换服务。相较之下,消息人士告诉路透社,如果英伟达GPU芯片在其它国家/地区出现问题或缺陷,且仍在保固期(通常为三年)内,英伟达公司通常会进行更换。
英伟达发言人表示,只有英伟达公司及其授权合作伙伴才能提供客户所需求的服务和支援。使用未经批准的硬体、软体和技术支援的受限产品,无论从技术角度还是经济角度来看,都是“行不通的”。
业内人士表示,中国的部分H100和A100 GPU处理器多年来一直不间断地处理数据,导致故障率上升。他们表示,根据GPU芯片使用频率和维护频率,Nvidia GPU芯片通常可以使用两到五年才需要维修。

据第一位消息人士表示,他的公司根据问题的复杂程度,GPU芯片维修费用在10,000元至20,000元人民币(1,400至2,800美元)之间。
第二家位于深圳的英伟达芯片维修服务供应商从今年开始,从GPU租赁转向维修,该公司表示每月最多可以维修200块Nvidia AI芯片,每次维修收费约为GPU原始售价的10%。
与此同时,高阶Nvidia芯片的走私活动仍在继续。《金融时报》7月24日调查后发现,在过去三个月,有超过10亿美元的英伟达高端人工智能芯片被走私到中国。
目前B200中国黑市市价介于每个机架300万至350万元人民币(约48.9万美元),低于5月中旬中国买家首度采购时的逾400万元人民币,但仍比类似产品的美国平均售价高50%左右。
调查还提到,东南亚国家已成为中国公司获取受限芯片的重要市场和转运站。据报导,美国商务部正在讨论最早于9月对泰国等国家的先进人工智能产品实施额外的出口管制。
英伟达在一份声明中说:“无论从技术或经济层面来看,试图以走私产品拼凑数据中心都会是一种失败尝试。数据中心需要服务和支援,我们只为获得授权的英伟达产品提供服务。”

英伟达AI芯片的维修通常涉及一系列复杂的技术操作,因为这些芯片是高性能计算设备的核心组件,用于支持人工智能、机器学习等领域的计算密集型任务。
故障诊断:首先需要确定芯片的具体问题。这通常涉及到使用专门的测试设备和软件工具来运行诊断程序,以识别硬件上的具体故障点。
拆解与检查:如果芯片安装在显卡或其他硬件模块上,技术人员可能需要小心地拆卸相关硬件以便进行更详细的物理检查。这包括查找是否有明显的物理损坏(如烧毁的元件或电路板上的痕迹)。
替换或修复受损部件:一旦确定了故障原因,技术人员可能会更换损坏的电子元件,比如电容、电阻或者晶体管等。对于一些更为复杂的故障,可能需要更换整个GPU芯片。
重新组装与测试:完成修理后,芯片会被重新组装,并再次通过一系列测试来确保其正常工作。这通常包括压力测试和性能基准测试,以验证修复后的芯片是否达到了预期的工作标准。
环境模拟测试:为了确保修复后的芯片能够在实际工作环境中稳定运行,一些维修中心还配备了大型服务器机房,可以模拟客户的数据中心环境,对修复后的芯片进行长时间的稳定性测试。
技术支持和服务保障:提供维修服务的公司通常会为客户提供一定的技术支持和售后服务,确保客户能够顺利将修复后的硬件重新集成到他们的系统中。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-7-30 00:12 , Processed in 0.087189 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表