牛宝体育娱乐平台

服务中心

展览品跨境物流服务

120天复制马斯克速度!119块乐高搭出算力工厂破Scaling Law算力差

来源:牛宝体育娱乐平台    发布时间:2025-03-28 17:03:50

  【新智元导读】马斯克建超算速度,被中国此公司用120天复刻了。119个集装箱,像搭积木一样拼出一座算力工厂。这不是科幻电影,而是浪潮信息交付的惊艳答卷。一个全新的AI时代,正在这里拉开序幕。

  上面这座算力工厂,采用了浪潮信息专为AI时代提出的预制化AIDC解决方案。

  它不仅将长达18个月的建设周期,大幅度缩短至4个月,甚至还实现了高效节能、弹性扩容、按需定制、便捷运维等技术创新。

  不论是训练,还是应用部署,预制化AIDC解决方案全面支持了AI大模型创新研发和应用。

  算力,就是这一个AI时代的「命门」。众所周知,AI大模型对算力的需求,远超乎所有人的想象。

  不论是OpenAI、微软,还是谷歌等科技巨头们坚信的是,scaling law仍在继续。

  2024年12月,堪称过去一年AI含金量最高的一个月,从中便可瞥见一二。

  OpenAI十二天Devday连更,为所有人送上了满血版o1、o1 Pro、Sora、高级语音功能,以及初次亮相的o3系模型。

  与之激烈对打的谷歌,更是战绩连连,凭借Gemni 2.0 Flash、Veo 2直接杀出重围。

  可以预见的是,每一代新模型都在疯狂「吃」算力,训练参数呈指数级增长。这种疯狂扩张的态势,让人不禁要问:我们的数据中心基建,还能支撑多久?

  一般来说,传统数据中心的建设是一个复杂的工程,需要经过设计、土建、机电安装、调试等多个阶段。其中,光规划和建设就要3-5年时间,占到了整个生命周期的约1/3。

  老黄同样说过,「建造一个超算常常要3年的规划时间,外加1年设备交付和调试时间」。

  而我们所看到的,马斯克10万块GPU建设速度,甚至即将要建的100万块GPU搭建的超算,也只是个例。

  比如,3年前规划的数据中心普遍采用5-10kW/标准柜,而如今单台AI服务器的功耗就已突破10kW。

  显而易见,AI迭代与基建建设的速度,严重不匹配,导致数据中心还未建成就已落后于时代。

  同时,这种「建设慢,需求快」的矛盾,不仅影响了产业高质量发展速度,还直接影响了投资方资金回报周期,形成了恶性循环。

  AI大模型训练的耗电量,堪比一个小城市的用电量。而这样比比皆是的报道,也早已家喻户晓。

  平均而言,ChatGPT查询所需的电力是谷歌搜索的近10倍。高盛研究估计,到2030年,数据中心的电力需求将增长160%。

  从芯片设计方面来看,CPU热设计功率(TDP)在过去十年几乎翻倍,GPU热设计功耗从2008年不足200W飙升至现如今1000W。

  与此同时,信通院发布的《中国绿色算力发展研究报告(2024年)》显示,我国数据中心的平均电能利用效率(PUE)在2023年时为1.48,而新的国家政策规定,新建数据中心的PUE不允许超出1.25。

  而当前,智算中心需要探索的是,与绿色电力深层次地融合,实现能源高效利用,让算力向智力有效转化。

  然而,传统数据中心的固定架构,限制了升级空间,无法及时采用新一代技术,难以快速响应业务需求的变化。

  另一方面,数据中心还将面临建成即落后、供不应求的窘境,投资回报率难以保障。

  针对这些挑战,这些年,一些企业打造的预制模块化数据中心应用而生,并将成为主流模式。

  根据规模不同,可分为单元级(Unit)、包间级(Pod)、建筑级(Stack Cube)、园区级(Base)等细粒度。

  算力工厂是一种创新的数据中心全生命周期服务模式,核心是通过规(划)、建(设)、运(营)一体化的「交钥匙」工程。

  元脑「算力工厂」这座智算中心采用创新的预制化AIDC解决方案,仅需119个预制化集装箱单层拼接,4个箱体就可以实现千卡规模AI算力。

  正如之前所述,它书写了惊人搭建速度的传奇,直接将同等规模数据中心的建设周期,从18个月缩减至4个月。

  因为采用了预制化集装箱建设方式,同等规模数据中心的建设周期从18个月缩减至4个月,工期缩短了近80%。

  因为创新地应用了液冷、光伏、储能、余热回收等节能技术,提高了散热及能源利用效率,PUE可降至1.1以下,全年节省电费近2亿元,经营成本大幅降低。

  预制模块化叠箱体系建设模式可依据业务规模,分期高效地进行水平及竖向扩容,有效节省前期投入成本。

  同时,八种模块化的功能箱体可根据不同场景、规模灵活组合,并按照功率区段分区部署,实现风冷/液冷、AI/通用/高密度等多种形态灵活兼容,匹配智算算力、通用算力、边缘算力等多种应用场景。

  元脑算力工厂包含了数据处理、AI大模型、业务应用、研发测试等多个集群,为全球服务器压力测试、大模型开发应用等多种业务应用,提供了绿色高效的算力支撑。

  如前所述,在大模型时代,算力需求呈爆发式增长,但高效运营AI算力却面临着诸多的挑战。

  该如何调度资源?怎么来控制成本?如何保障算力平台稳定性和可用性?如何让AI算力性能持续优化?

  一方面,不同AI任务对于算力需求各不相同;另一方面,如何在多用户、多任务场景在实现资源最优分配,避免算力的浪费,都是亟待解决的问题。

  不仅如此,随着算力规模的扩大,经营成本也会随之攀升。诸如电力消耗、运维人员等各方面成本,都是企业面临的挑战。

  然而,集群规模扩大管理只会愈加复杂,硬件发生故障的风险就会增加,随之带来的是系统性能波动频繁,数据安全风险隐患增高。

  还有需要考虑到的一点是,AI算力性能必须持续优化。这当中也涉及到了多个层面,比如硬件协同优化、软件架构改进、算法效率提升等等。

  AI基础设施管理平台面向金融、通信、互联网等多行业的数据中心,可实现前所未有的一体化管理。

  平台突破性解决了IT基础设施管理与动力环境管理割裂的痛点,带来了全新的管理体验。

  平台还创新实现了高密单排微模块2D/3D、核心制冷部件远程调控等5大功能,安全性能飙升30%,为超大规模数据中心稳定高效运行提供重要保障。

  作为深度学习开发平台,AIStation能够为企业客户提供强大的开发支持。

  比如,统一管理和精细调度AI计算资源,全面整合计算资源、训练数据和开发工具。

  不仅如此,AIStation还提供了完整的AI软件栈和敏捷标准化的开发流程,降低资源投入同时,极大的提升开发效率。

  基于系列平台的创新与整合,对公司来说,算力的高效稳定运营也不再是难题。

  既然有了这样一个堪称「黑科技」含量最高的解决方案,对于大模型时代下的训练和部署,意味着什么?

  当前,AI大模型正在经历着前所未有的进化:从单一语言模型走向多模态;突破长文本限制;引入MoE架构;强化学习能力不断提升。

  不仅如此,大模型进化Scaling Law仍在继续,老黄还在CES大会上首次提出了AI时代三个Scaling Law。

  这暗示着,大模型的突破未来有着更广阔的空间,唯一的限制,就是如何构建出强大的算力基础设施。

  如今,AI大模型的参数规模已经从千亿级别攀升到了万亿级别。AI大模型厂商纷纷投建大规模算力资源,压缩大模型训练周期。

  显而易见的是,随着算力规模的继续扩展,单颗芯片的性能瓶颈愈发明显,整个AI系统的通信效率成为焦点之一。

  大型AI模型训练过程中,网络通信通常占据整体训练时间的20%到40%,这造成了大量算力资源浪费,优化网络通信效率,成为AI大模型发展的关键议题。

  然而,目前的传统RoCE网络面临着网络性能不足、难以满足多样化AI系统网络需求、部署周期长、可靠性低、管理难度大等问题。

  对此,元脑算力工厂采用了专门面向生成式AI打造的超级AI以太网交换机——X400,大幅度降低网络通信占比,革命性地提升了大规模GPU训练性能;同时,采用浪潮信息 ICE智能云引擎,实现智能化的网络管控。

  这,就成为了新型的AI训练网络解决方案,打造业界领先的AI Fabric。

  超级AI以太网交换机X400,采用AR自适应路由、RTT CC拥塞控制、亚毫秒级故障自愈等技术,拥有高性能(高吞吐量、高带宽、低延迟)、高可靠性、快速部署、灵活拓展等核心优势。同时,它还具备多租户隔离、多业务并发支持的能力,以应对AI模型训练的复杂需求。

  性能方面,X400的吞吐量达到了业界最高的51.2T,较上一代产品提升了4倍。在4U空间可提供128个400Gb/s的高速网络端口,相比传统RoCE网络性能提升了1.6倍。

  值得一提的是,其对AI网络的带宽利用率可达95%以上,同时还可将通信时延降低30%。

  综上,X400的应用将大幅度的提高大模型的训练效率,缩短训练时长,降低训练成本。

  此外,在 AIGC 时代,网络管理已不再是传统的设备配置与监控,而是面向未来的智能化、自动化以及可视化的平台。

  浪潮信息ICE智能云引擎正是这一趋势下的先行者,基于数字孪生技术,打造网络虚拟仿真和优化验证平台,并利用人工智能技术实现自动化管理和智能化监控,提升管理效率与故障响应速度,让企业在复杂环境中实现高效、可靠的网络运维,助力企业充分释放AIGC潜能。

  在此之前,浪潮信息早已给出了完美的解决方案——企业大模型开发平台「元脑企智」EPAI。

  它犹如一座「桥梁」,通过提供软件栈及综合服务,赋能算力挖潜、模型优化和应用开发。

  这次,元脑算力工厂直接搭载了EPAI,连接了多元算力、多元模型、应用层,直接加速LLM应用落地。

  EPAI可实现百万token、千亿参数、领域大模型的高效微调,可以更好地适应具体行业场景下的任务需求,快速打造领域LLM。

  与此同时,它还提供面向多元多模的计算框架,让LLM应用在跨算力平台上无感迁移。

  这个过程,就降低了多模、多元的适配与试错成本,为企业用户根据实际场景需求,选择开发部署对自己最合适的大模型,提供了极大便利。

  基于预制化AIDC解决方案的算力工厂,不单单是一次技术创新,更是对这整个产业高质量发展模式的革新。

  算力工厂重新定义了算力释放的价值与效率,实现了基建与算力的强绑定,是以算力为中心来确定建设模式和内部的算力模组,所有设计都是算力的一部分,实现了投入即产出。

  三湘都市报3月26日讯(全媒体记者 李致远)3月26日,深圳铁路公安处发布警情通报:针对近日网传“女生高铁上提醒男子勿脱鞋放脚被打”一事,铁路公安机关经调查,2025年3月24日13时许,D7594次列车运行在深圳北至东莞南区间时,旅客吴某某(男,45岁)脱鞋将赤脚放在对面座位上

  一学校课间查监控广播喊话:李老师,现在是下课时间,请准时下课;外面阳光明媚,请这位同学出去晒太阳

  怎么让老师不拖堂,怎么让孩子们走出教室到户外活动,很多学校都动足了脑筋。今天,杭州市钱塘区中小学课间15分钟现场展示活动在下沙一小举行,小狮妹发现,下沙一小在这方面动真格了。

  #法国飞行表演队两机相撞 ,现场视频曝光#飞行表演 #法国 #特技飞行

  国家跳水队领队周继红正式退休 3月25日,国家体育总局官网公布干部调整信息:免去周继红的游泳运动管理中心主任、国家跳水队领队职务,按国家相关规定办理退休手续。周继红在任期内率队斩获46枚奥运金牌,并在2024年巴黎奥运会包揽全部8金!如今60岁的她正式结束执掌中国跳水队27年的光辉历程。#周继红办理退休手续 #中国跳水历史上首位奥运冠军

  3月26日,国家体育总局:周继红按国家有关法律法规办理退休手续。她曾力排众议让全红婵参加东京奥运会。(综合光明网、广州日报)

  3月26日,河北廊坊发生4.2级地震。养了6年红龙鱼受惊跳缸,主人含泪埋葬:它平时很温顺,从未跳过缸,可能是地震导致它受惊。

  国安部通报:徐某违规将涉密成果导入个人电脑,作为“投名状”带到新岗位,被处罚

  记者从国家安全部了解到,近年来,国家安全机关工作发现,个别涉密单位人员在离职后,明知违反保密规定,依然将在原单位工作期间的涉密成果作为“投名状”带到了新岗位,造成失泄密隐患。心存侥幸不知过徐某大学毕业后,一直在我某重点科研院所涉密岗位从事软件开发工作,长期接受保密教育。

  海关总署原党委委员、副署长孙玉宁涉嫌受贿一案,由国家监察委员会调查终结,移送检察机关审核检查起诉。日前,最高人民检察院依法以涉嫌受贿罪对孙玉宁作出逮捕决定。

  董事长被传与女子跑马拉松导致股价下跌,涉事公司回应,拍摄者删除视频并道歉

  一位选手视频时,将身后的一男一女拍入了视频,一位年纪较大的男选手本来用右手搭在年轻女士的肩膀上,看到镜头后,主动松开,并拉开一段距离。