机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 491|回复: 0

Meta与NVIDIA联合打造大型AI研究超级计算机 01-26 16:14

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
171378
发表于 2022-1-29 17:16:48 | 显示全部楼层 |阅读模式
Meta Platforms,facebook的母公司。
Meta Platforms充分认可NVIDIA,为其有望成为有史以来最强大的研究系统选择了NVIDIA的先进技术。今日发布的AI研究超级集群(RSC)已在训练新模型以推动AI发展。全面部署后,Meta的RSC预计将成为最大的NVIDIA DGX A100客户系统。

Meta在一篇博客文章中表示:“我们希望RSC帮助我们建立全新的AI系统,例如可以为多个不同语言的团队提供实时语音翻译,使他们可以在研究项目上无缝协作,甚至一起玩AR游戏。”
当RSC在今年晚些时候完全建成时,Meta将用它来训练具有超过1万亿个参数的AI模型。这将推动自然语言处理等领域的发展,比如实时识别不法内容等工作。
除了实现规模性能之外,Meta还将超高的可靠性、安全性、隐私性以及处理“各类AI模型”的灵活性作为RSC的关键指标。
目前,此全新AI超级计算机已经部署了760个NVIDIA DGX A100系统作为其计算节点。共有6080个NVIDIA A100 GPU,通过NVIDIA Quantum 200Gb/s InfiniBand网络连接,可提供1895千万亿次TF32计算性能。

尽管受到新冠疫情的影响,这样一台可运行的AI超级计算机从想法到实现,RSC仅用了18个月! “功臣”之一便是采用NVIDIA DGX A100技术作为基石。

Penguin Computing是NVIDIA合作伙伴网络中负责RSC交付的合作伙伴。除了760个DGX A100系统和InfiniBand网络之外,Penguin还为Meta提供管理服务和AI基础架构优化,包括一个46PB高速缓存的Altus系统。
这是Meta第二次选择NVIDIA技术作为其研究平台的基础。2017年,Meta打造了第一代AI研究基础架构,配备了22000个NVIDIA V100 Tensor Core GPU,每日可处理35000项AI训练工作。

Meta的早期基准测试显示,RSC训练大型NLP模型的速度比之前的系统快3倍,运行计算机视觉工作的速度比之前的系统快20倍。

在今年晚些时候的第二阶段,RSC将扩展至16000个GPU。Meta认为届时RSC将提供高达5百亿亿次级混合精度AI计算性能,并且Meta希望通过扩展RSC的存储系统,以每秒16TB的速度提供高达1EB的数据。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2024-9-29 22:24 , Processed in 0.088213 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表