大模型时代到来,算力储备成为云厂商核心战略资源。由ChatGPT引爆的大模型浪潮下,各大科技企业竞相推出了自家的大模型产品,各行业企业也对大模型保持着高度关注,一些其他行业的企业也纷纷跨界布局大模型相关产品。面对着全球都在追逐的大模型浪潮,底层算力需求持续高涨,但供给相对有限,“缺口”或许将影响人工智能的发展。根据《LLaMA: Open and Efficient Foundation Language Models》,以训练LLaMA模型为例,LLaMA模型拥有650亿参数量,1.4T tokens的训练集,按照A100 80GB 380 tokens/second/GPU的速度计算,如果使用单张A100 80GB GPU训练一次需要花费约43000天,而如果希望在一个月内训练完成,则需要2048张A100 GPU大约训练21天。根据State of AI统计,截止2024年2月,各家全球AI服务巨头均加快了算力争夺的步伐,Meta公司拥有近2万张A100与35万张H100训练卡,成为目前全球算力储备最为丰厚的公司。
大模型时代到来,算力储备成为云厂商核心战略资源。由ChatGPT引爆的大模型浪潮下,各大科技企业竞相推出了自家的大模型产品,各行业企业也对大模型保持着高度关注,一些其他行业的企业也纷纷跨界布局大模型相关产品。面对着全球都在追逐的大模型浪潮,底层算力需求持续高涨,但供给相对有限,“缺口”或许将影响人工智能的发展。根据《LLaMA: Open and Efficient Foundation Language Models》,以训练LLaMA模型为例,LLaMA模型拥有650亿参数量,1.4T tokens的训练集,按照A100 80GB 380 tokens/second/GPU的速度计算,如果使用单张A100 80GB GPU训练一次需要花费约43000天,而如果希望在一个月内训练完成,则需要2048张A100 GPU大约训练21天。根据State of AI统计,截止2024年2月,各家全球AI服务巨头均加快了算力争夺的步伐,Meta公司拥有近2万张A100与35万张H100训练卡,成为目前全球算力储备最为丰厚的公司。