企业培训资讯_企业培训干货

当前位置:首页 > 名师团队

Facebook发布三套AI硬件系统,并顺手宣布将其开源:幸运28网站大全

发布时间:2020-11-09    来源:官网彩票开奖70602

本文摘要:一般来说,视频转码ASIC主要有以下几个逻辑块:解码器:接管上传的视频,输入并解压缩完整的视频流Scaler:改变视频分辨率编码器:输入和传输(编码)视频质量检测:计算编码后的视频质量PHY:芯片与外界的模块,连接服务器和内存的PCI-E地下通道控制器:操作固件和协商转码过程的标准化块像推理小说一样,Facebook使用的是现有的OCP积木在加速器会安装在带散热器的M2模块上。

用于架顶式交换机,从每个独立平台扩展到单个机架中的多台服务器。随着Facebook AI培训的规模和复杂程度的快速增长,锡安平台也可以进行扩展。锡安系统分为三个部分:8插槽服务器和8加速器平台OCP加速器模块锡安将系统的内存和计算与网络密集型组件相耦合,允许每个组件独立扩展。系统获得8x NUMA中央处理器模块和大型DDR内存池,用于映射内存密集型组件,如稀疏表。

对于内存比特率密集型和计算密集型工作阻抗如CNN或SparseNN密集型部分,每个CPU模块都与OCP加速模块相连。锡安系统有两种高速结构:连接所有CPU的相干结构和连接所有加速器的结构。鉴于加速器的低存储比特率和低存储容量,Facebook希望通过对模型进行分区来有效利用可用的单个内存容量,以便更频繁访问的数据将袖手旁观加速器,而不太频繁访问的数据将袖手旁观具有CPU的DDR内存。所有CPU和加速器之间的计算和通信是平衡的,并通过高速和短距离连接有效传播。

通过国王峡谷继续执行推理小说。模型经过训练后,必须部署到生产环境中,以便对AI过程的数据进行处理,并调用用户的催促。

服务器

这叫推理小说。推理小说的工作阻抗迅速降低,说明培训工作大幅减少,目前使用的标准CPU服务器无法很好地扩大规模,满足市场需求。Facebook与世界语、英特尔、Marvell和高通合作开发了神秘的新型专用集成电路芯片,可以在基础设施上部署和扩展。

这些芯片对于工作阻抗会获得INT8半精密运算,从而获得理想的性能,而反对FP16单精密运算,从而构建更高的精度。整个神秘小说服务器解决方案分为四个不同的部分,利用现有的积木,已经公布给OCP。使用现有组件可以减缓开发进度,并通过通用性降低风险。设计的四个主要组成部分是:系统级的国王峡谷推理小说M.2模块、Twin Lakes单路服务器、载波卡)优胜美地v2机架,每个服务器由M.2国王峡谷加速器和连接到Twin Lakes服务器的冰川点v2的载波卡组成。

两组组件被添加到修改后的优胜美地v2机架中,并通过多主机网卡连接到机架顶部交换机。修改后的优胜美地sled是优胜美地v2 sled的递归升级,将Twin Lakes主机的其他PCI-E通道连接到NIC,以获得更高的网络带宽。

每个国王峡谷模块包括专用集成电路、相关存储器和其他相对的组件,其中CPU主机通过PCI-E通道与加速器模块通信。冰川点v2还包括一个PCI-E交换机,用于允许服务器同时访问所有模块。深度自学习模型是一种存储密集型阻抗。比如SparseNN模型有一个非常大的映射密切相关表,不会闲置几GB的存储空间,还可能继续增长。

这么大的模型可能不适合读入单独设备的内存,CPU和加速器都敢这么做,拒绝在多个设备的内存上扩展模型分区。当数据位于另一个设备的内存中时,拆分会产生大量的通信成本,并且不会应用好的拆分算法来捕获本地概念,从而降低通信成本。经过适当的模型拆分,就可以像SparseNN模型一样操作大规模的深度自学习模型。

如果单个节点的内存容量足以对抗等效模型,则可以在两个节点之间进一步拆分模型,从而减少模型可用的内存量。这两个节点可以通过多主机网卡连接,与高速信息处理相对。

加速器

这将降低整体通信成本,并且可以利用多个映射表之间没有访问差异的事实,并且适当地对表进行排序以减少通信延迟。神经网络硬件加速器编译器ASIC不操作标准化代码,它们必须将图形切换成可以在这些加速器上继续执行的指令。

Glow编译器的目标是从更高级的软件栈中抽象出厂商的具体硬件,这样基础设施才不会让厂商无法接受。它拒绝接受来自PyTorch 1.0等框架的计算图,并为这些机器学习加速器分解高度优化的代码。沙斯塔山视频转码自2016年以来,Facebook直播的平均数量每年翻一番。

自2018年8月在全球推出以来,Facebook Watch已经有4亿个月的页面浏览量,每天有7500万人使用它。为了优化所有这些视频,使其适应各种网络环境,Facebook区分了不同分辨率和比特率的各种输入质量。这个过程叫做视频转码。

服务器

转码所需的计算非常密集,标准化处理器的效率已经不能满足日益增长的视频需求。为了走在市场需求的前面,Facebook与博通、鑫源微电子合作,设计了一款针对转码工作阻抗优化的定制ASIC。视频转码过程被分解成许多不同的步骤。为了提高效率,Facebook和供应商为转码过程的每个阶段创建了定制的专用集成电路模块。

完成这些工作阻抗的专用硬件可以使该过程更加高效,并且可以对抗新功能,例如动态4K 60fps流媒体。单个视频编解码都是标准化的,经常变动,所以定制芯片缺乏灵活性在这种情况下并不是明显的劣势。视频转码的第一阶段叫做解码。

在解码过程中,上传的文件是可执行文件,以获得一系列图像响应的完整视频数据。然后,这些未压缩的图像由操作者扩展以改变它们的分辨率,然后用于再次优化扩展编码的设置,并且它们被新传输到视频流,并且输入视频被扩展并与完整视频进行比较以计算质量指数。所有视频都采用这种做法,以确保使用的编码设置可以输入高质量的视频。

用于视频编解码的标准称为视频编码模式,H.264、VP9、AV1是目前使用的主流编码协议。在ASIC上,除了每一个软件算法都被芯片中的一个特殊模块代替,其他步骤完全一样。Facebook期望视频加速器可以反对多种分辨率和多种编码格式,构建一个比当前服务器效率高很多倍的服务器。

模块

目标是在10W功耗内处理至少两个4K 60fps分段输出流。一般来说,视频转码ASIC主要有以下几个逻辑块:解码器:接管上传的视频,输入并解压缩完整的视频流Scaler:改变视频分辨率编码器:输入和传输(编码)视频质量检测:计算编码后的视频质量PHY:芯片与外界的模块,连接服务器和内存的PCI-E地下通道控制器:操作固件和协商转码过程的标准化块像推理小说一样,Facebook使用的是现有的OCP积木在加速器会安装在带散热器的M.2模块上。这种罕见的电气形状可以在不同的硬件平台上标准化。该模块安装在Glacer Point v2(GPV 2)载体卡上,与Twin Lakes服务器物理外形相同,可容纳多个M.2模块,与Yosemite v2机架兼容,并与Twin Lakes服务器屏蔽。

由于视频转码ASIC功耗低、体积小,Facebook希望通过将尽可能多的芯片连接到一台服务器上来节省成本。高密度的GPv2可以达到这个目的,同时可以获得足够的热容量来承受数据中心的工作温度。完成软件建设工作后,Facebook可以平衡不同数据中心方向的异构硬件上的视频转码工作量。

为了扩大与各种机器学习和视频空间提供商的合作规模,他们还希望确保软件以开放的方式开发,并推广和使用标准化的界面和框架。Facebook在文章中回应称,公司将进入一个激动人心的未来,期待锡安、国王峡谷和沙斯塔山分别解决问题,AI培训、AI推理小说和视频转码方面的工作量将大幅快速增加。

Facebook将通过OCP出版物获得所有的设计和规范,支持其他公司重新加入,以加快基础设施建设的进程,并希望通过硬件和软件的协同设计来改进这些系统。原文链接:版权文章用特定应用硬件加速facebooks基础设施,发布时禁止许可。以下是发布通知。


本文关键词:视频转码,推理小说,模型,服务器,内存,幸运28网站大全

本文来源:幸运28网站大全-www.yts-design.com

分享到:
浅说父母对孩子的期望_幸运28网站大全 新的列车运行图暨暑期图【官网彩票开奖】
热门文章
5GXAI,时代变革从此开始-幸运28网站大全
现在,连智能音箱都开始欺负PC了_官网彩票开奖
洛可制定公布集团第一个战略_幸运28网站大全
官网彩票开奖_微软英国官网称Windows10下一大版本为“秋季/Autumn”创作者更新
老虎证券拿下美国投行牌照机构业务驶入快车道
马化腾演讲全文:腾讯要在云时代构建“三张网”,打破信息的孤岛|官网彩票开奖
幸运28网站大全_佳都A.I.智能体温人脸追踪监测产品多场景落地,助力复工“精准防控”
【官网彩票开奖】受美国政府关门影响,SpaceX推迟发射Falcon重型火箭
对话鄢志杰:语音行业十五年老兵的沿途风景【官网彩票开奖】
官网彩票开奖_终于等到你!李彦宏李书福“世纪同台”拉开全民智能汽车时代大幕
阿里云半年营收破百亿元持续扩大亚洲市场领先优势
张小龙对微信小程序的10个解说_官网彩票开奖
微博搜索“花呗”前三条热门微博全是骗子
山东金牌男篮获最后一张CBA季后赛门票
娱乐化健康管理,妙健康是如何把握人性“七宗罪“的?
客户案例
×