腾讯云有没有香港服务器

香港云服务器4个月前香港云服务器90

  阿里云资深技术专家,网络研究团队负责人翟恩南通过GitHub分享了他的研究论文,揭示了阿里云服务提供商为其数据中心设计的用于大型语言模型(LLM)训练的架构。这份PDF文档题为《Alibaba HPN: A Data Center Network for Large Language Model Training》,详细介绍了阿里巴巴如何使用以太网使其15,000个GPU之间实现相互通信。

  一般的云计算产生的都是稳定但较小的数据流,速度低于10 Gbps。而LLM训练则会周期性地产生高达400 Gbps的数据突发流量。根据该论文,这种LLM训练的特点使得传统数据中心常用的负载均衡方案——等价多路径(ECMP)容易出现哈希极化问题,导致流量分配不均等问题。

  为避免这种情况,翟恩南和他的团队开发了高性能网络(HPN),采用了“2级双平面架构”,减少了可能出现ECMP问题的次数,同时让系统“能够精确选择能够承载大流量的网络路径”。HPN还使用了ToR(Top of Rack))交换机,使它们能够相互备份。这些交换机是LLM训练中最常见的单点故障,需要GPU同步完成迭代。

  阿里云将其数据中心划分为主机,每个主机配备八个GPU。每个GPU都有其网络接口卡(NIC),配备两个端口,每个GPU-NIC系统称为通道(rail)。主机还配备一个额外的NIC以连接到后端网络。每个通道分别连接到两个不同的ToR交换机,确保即使一个交换机故障也不会影响整个主机。

  尽管放弃了用于主机间通信的NVlink,阿里云仍然在主机内网络中使用了Nvidia的专有技术,因为主机内GPU之间的通信需要更大的带宽。然而,由于通道之间的通信速度较慢,每歌主机提供的“专用400 Gbps RDMA网络吞吐量,总带宽达到3.2 Tbps”,足以最大化PCIe Gen5x16显卡的带宽。

  阿里云还使用了一款51.2 Tb/sec的以太网单芯片ToR交换机,因为多芯片解决方案比单芯片交换机不稳定,故障率高四倍。然而,这些交换机运行时发热量大,市面上没有合适的散热器能防止它们因过热而关闭。因此,阿里自创了一种新的解决方案,即创建一个以更多支柱为中心的均热板散热器,以更有效地传输热能。

  翟恩南和他的团队将在今年8月于澳大利亚悉尼举行的SIGCOMM(数据通信特别兴趣小组)会议上展示他们的工作。包括AMD、Intel、Google和Microsoft在内的多家公司都对这个项目感兴趣,主要原因是这些公司联手创建了Ultra Accelerator Link——一种旨在与NVlink竞争的开放标准互连集成系统。尤其是阿里云已经使用HPN超过八个月,这意味着该技术已经经过了实际验证。

  然而,HPN仍存在一些缺点,最大的缺点是其复杂的布线结构腾讯云有没有香港服务器。每个主机有九个NIC,每个NIC连接到两个不同的ToR交换机,这增加了插孔和端口混淆的可能性。尽管如此,这项技术据称比NVlink更经济,从而使任何建立数据中心的机构都能在设置成本上节省大量资金(甚至可能使其避免使用Nvidia技术,特别是在中美芯片战中受到制裁的公司)。

相关文章

香港阿里云服务器崩溃了

香港阿里云服务器崩溃了

  对于数据分析与测算、中小数据库管理、缓存、搜索集群等场景的用户,一般选择Cpu与内存比例1。:4的云主机比较多,所以用户比较关心2核8G、4核16G、8核32G等流行云主机的价格,目前...

香港阿里云是什么服务器

  随着互联网的快速发展,越来越多的企业和个人有了建立自己的网站和在线业务的需求。而要实现这一目标,首先需要购买一台稳定、高效的服务器。阿里云作为全球领先的   1. 可...

购买阿里云的香港服务器

  现在续费的阿里云主机,续费三年和续费两年的价钱差不多,那肯定续费三年呀,当然买新的更便宜,现在新老用户同享了。   第二次降价:在2023年11月阿里云云栖大会上,把...

飞鸟云加速器官网

飞鸟云加速器官网

  本文由卢松松亲身经历而写,了解我的人都知道我这人比较实在,有一些实话说起来不好听。但只有客观的了解真实行情,才能为下一步创业计划做打算,烦请关注下呗,因为你关注的人,决定你看看到的世界...