英伟达DGX GH200新品发布仅过去半年多,今天,黄仁勋又一次在深夜引爆了全场。
钛媒体App获悉,北京时间11月13日晚上,美国芯片巨头英伟达发布世界上最强大的 AI 芯片——NVIDIA H200 Tensor Core GPU(图形处理器)。
新的英伟达 H200 是当前 H100 的升级产品,基于 NVIDIA Hopper 超级芯片架构,具有最高的性能和先进内存技术功能,针对于超大规模的大模型训练和推理,可增强生成式 AI 和高性能计算 工作负载。
H200 是*提供每秒 4.8 TB速度、141GB HBM3e内存的 GPU 产品。与 H100 相比,H200 容量几乎翻倍、带宽增加 2.4 倍。在用于 Llama2、GPT-3等大模型推理或生成问题答案时,H200 性能较 H100 提高 60% 至90%。因此,H200可部署在本地、云、混合云和边缘侧等各种类型的数据中心内部。
同时,与CPU相比,H200在HPC下获得的结果速度达到一个“恐怖”的数据:提高110倍。
对于中国市场,11月14日上午,英伟达公司在邮件中向钛媒体App确认:如果没有获得出口许可证,H200将无法在中国市场销售。
据了解,英伟达NVIDIA H200将于2024年第二季度开始向全球客户和云服务厂商供货,预计将与AMD的MI300X AI芯片展开竞争。
具体来看,由于NVIDIA Hopper架构、TensorRT-LLM专用软件等软硬件技术加持,新的H200在超大模型训练和推理性能表现优异。与H100相比,H200在Llama 2开源大模型的推理速度几乎翻倍,而未来的软件更新预计会带来H200的额外性能*优势和改进。
据英伟达数据,在TF32 Tensor Core中,H200可达到989万亿次浮点运算;INT8张量核心下提供3,958 TFLOPS(每秒3958万亿次的浮点运算)。
不仅如此,基于H200芯片构建的HGX H200加速服务器平台,拥有 NVLink 和 NVSwitch 的高速互连支持。8个HGX H200则提供超过32 petaflops的FP8深度学习计算和 1.1TB 聚合高带宽内存,从而为科学研究和 AI 等应用的工作负载提供更高的性能支持,包括超1750亿参数的大模型训练和推理。
据Anandtech分析,根据目前规格来看,H200的加速计算性能可以理解为半年前发布GH200 Hopper超级芯片的一半,而区别在于HBM3 替换为HBM3e、内存带宽从80GB提升至141GB、速度提升到4.8TB/秒,这使得英伟达能够提高内容的处理速度和带宽容量。而根据总带宽和内存总线宽度推算,与H100相比,H200的内存频率增加大约25%。
钛媒体App从英伟达处确认,如果没有出口许可,新的H200将不会销往中国,原因是H200参数高于美国商务部10月17日公布的性能红线:多个数字处理单元的集成电路总处理性能为2400-4800,“性能密度”大于1.6且小于5.92。
11月初,英伟达已向经销商公布“中国*版”HGX H20、L20 PCle、L2 PCle产品信息,分别针对的是训练、推理和边缘场景,最快将于11月16日公布,量产时间为2023年12月至2024年1月。其中,HGX H20在带宽、计算速度等方面均有所限制,理论综合算力要比英伟达H100降80%左右,当然也会比H200更为“缩水”。
值得一提的是,除了H200之外,基于英伟达现在发售的基于Grace、Hopper以及Grace Hopper架构的 AI 芯片,该公司今天推出一种搭载4个Grace Hopper GH200 AI 芯片的新平台,称为NVIDIA Quad GH200。
Quad GH200提供288个ArmCPU内核和总计2.3TB的高速内存,将四个GH200叠加,以8 chips、4路NVLink拓扑相互连接,形成CPU+GPU共同加持的强大算力平台,从而安装在基础设施系统中,提供更易用、性能更强的算力支持。
据美国金融机构Raymond James透露,H100芯片成本仅3320美元,但英伟达对其客户的批量价格仍然高达2.5万至4万美元。这导致H100利润率或高达1000%,成为了有史以来*钱的一种芯片。
同时,英伟达还宣布与Jupiter公司合作,将提供基于2.4万个GH200的新型超级计算机,功耗低到18.2兆瓦,将安装在德国于利希研究中心设施中,用于材料科学、药物发现、工业工程和量子计算领域的基础研究。该超算系统将于明年交付安装。
免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。