chatgpt算力消耗惊人,能烧得起的中国公司寥寥无几

2023-03-29 17:20:13

高性能gpu数量或性能不够的结果是,ai推理和模型训练的准确度不足,即使做出类似的对话机器人,机器人的“智商”也会远低于chatgpt。


国内云厂商高性能gpu芯片缺货,正在成为限制中国生成式ai诞生的最直接因素。


2022年12月,微软投资的ai创业公司openai推出了聊天机器人chatgpt。这是生成式ai在文本领域的实际应用。所谓生成式ai,是指依靠ai大模型和ai算力训练生成内容。chatgpt本质是openai自主研发的gpt-3.5语言大模型。该大模型包含近1800亿个参数。


微软的azure云服务为chatgpt构建了超过1万枚英伟达a100 gpu芯片的ai计算集群。


美国市场研究机构trendforce在3月1日的报告中测算称处理1800亿个参数的gpt-3.5大模型,需要的gpu芯片数量高达2万枚。未来gpt大模型商业化所需的gpu 芯片数量甚至超过3更早前的2022年11月,英伟达在凯发官网入口首页官网公告中提到,微软azure上部署了数万枚a100/h100高性能芯片。这是第一个采用英伟达高端gpu构建的大规模ai算力集群。


鉴于英伟达在高性能gpu方面的技术领先实力,在国内,云计算技术人士公认的一个说法是,1万枚英伟达a100芯片是做好ai大模型的算力门槛。


《财经十一人》了解到,目前国内云厂商拥有的gpu主要是英伟达中低性能产品(如英伟达a10)。拥有超过1万枚gpu的企业不超过5家,其中拥有1万枚英伟达a100芯片的企业最多只有1家。也就是说,是从算力这个衡量指标来看,国内能在短期内布局类似chatgpt选手十分有限


chatgpt看似只是聊天机器人,但这却是微软的ai算力、ai大模型和生成式ai在消费市场的一次肌肉展示。在企业市场,这是云计算的新一轮增长点。微软azure ml(深度学习服务)已有200多家客户,包括制药公司拜耳、审计公司毕马威。azure ml连续四个季度收入增长超过100%。这是微软云旗下云、软件、ai三大业务中增长最快的板块。


今年2月,包括阿里、百度等中国企业宣布将研发类chatgpt产品,或将投入生成式ai的研发。在国内,ai算力、ai大模型和生成式ai被认为只有云厂商才有资格下场。华为、阿里、腾讯、字节跳动、百度都有云业务,理论上有跑通ai算力、ai大模型和生成式ai应用的入场券。


有入场券不代表能跑到终点。这需要长期高成本投入。gpu芯片价格公开,算力成本容易衡量。大模型需要数据采集、人工标注、模型训练,这些软性成本难以简单计算。生成式ai的投资规模通常高达百亿元。


多位云计算厂商技术人士、服务器厂商人士对《财经十一人》表示,性能gpu芯片短缺,硬件采购成本、运营成本高昂,国内市场中短期商业化困难,这三个问题才是真正的挑战他个人认为,具备资金储备、战略意志和实际能力的企业,暂时不会超过3家。


芯片数量决定“智商”


决定ai大模型“智商”的核心因素是三个,算力规模、算法模型的精巧度、数据的质量和数量。


ai大模型的推理、训练高度依赖英伟达的gpu芯片。缺少芯片会导致算力不足。算力不足意味着无法处理庞大的模型和数据量。最终的结果是,ai存在智商差距。


3月5日,第十四届全国人民代表大会第一次会议开幕式结束后,科技部部长王志刚在全国两会“部长通道”接受媒体采访时评价,chatgpt作为一个大模型,有效结合了大数据、大算力、强算法。它的计算方法有进步,特别是在保证算法的实时性与算法质量的有效性上。“就像发动机,大家都能做出发动机,但质量是有不同的。踢足球都是盘带、射门,但是要做到梅西那么好也不容易。”


英伟达是全球知名的半导体厂商,在数据中心gpu市场占据超过90%以上的份额。英伟达a100芯片2020年上市,专用于自动驾驶、高端制造、医疗制药等ai推理或训练场景。2022年英伟达推出了性能更强的新一代产品h100。a100/h100是目前性能最强的数据中心专用gpu,市面上几乎没有可规模替代的方案。包括特斯拉、facebook在内的企业,都利用a100芯片组建了ai计算集群,采购规模均超过7000枚。


多位云计算技术人士对《财经十一人》表示,运行chatgpt至少需要1万枚英伟达a100芯片。然而,gpu芯片持有量超过1万枚的企业不超过5家。其中,拥有1万枚英伟达a100gpu的企业至多只有1家。


另有某大型服务器厂商人士对《财经十一人》表示,即使乐观估计,gpu储备规模最大的企业也不超过5万枚,且以英伟达中低端数据中心芯片(如英伟达a10)为主。这些gpu芯片分散在不同数据中心中,单个数据中心通常只配备了数千枚gpu芯片。


此外,由于美国政府去年8月开始实施的贸易限制,中国企业早已无法获取英伟达a100芯片。现有a100芯片储备均是存货,剩余使用寿命约为4年-6年。


2022年8月31日,英伟达、amd两家半导体企业旗下生产的gpu产品被美国列入限制范围。英伟达被限制的产品包括a100和h100,amd受管制gpu产品包括mi250。按照美国政府的要求,未来峰值性能等于或超过a100的gpu产品也被限制出售。





中国企业目前能够获取的最佳替代品,是英伟达的a800芯片。a800被视为是a100的“阉割版”。 2022年8月,a100被禁止销售中国市场后,英伟达在当年三季度针对中国市场推出了特供的a800芯片。该产品计算性能与a100基本相同,但数据传输速度被降低了30%。这会直接影响ai集群的训练速度和效果。


不过,a800芯片目前在中国市场严重缺货。虽然是a100“阉割版”,a800京东凯发官网入口首页官网定价超过8万元/枚,甚至超过a100官方定价(1万美元/枚)。即使如此,a800在京东凯发官网入口首页官网仍是缺货状态。


有云厂商人士对《财经十一人》表示,a800实际售价甚至高于10万元/枚,价格还在持续上涨。a800目前在浪潮、新华三等国内服务器厂商手中是稀缺品,一次只能采购数百片。


gpu数量不够或性能不够的结果是,ai推理和模型训练的准确度不足。这会直接导致中国企业即使做出类似的对话机器人,机器人的“智商”会远低于chatgpt。国内云厂商高性能gpu芯片缺货,正在成为限制中国版chatgpt诞生的最直接因素。


成本高昂


ai算力和大模型是比云还要烧钱的吞金兽。


即使有足量的高性能gpu,中国云厂商接下来还要面临高昂的硬件采购成本、模型训练成本以及日常运营成本。面对上述成本,具备资金储备、战略选择和实际能力的企业不超过三家。


openai能做出chatgpt,背后有微软提供资金和算力。2019年微软向openai投资10亿美元。2021年微软再进行了一轮未透露金额的投资。今年1月,微软宣布将在未来数年陆续向openai投资100亿美元。


对云厂商来说,ai算力和大模型需要面临高昂的硬件采购成本、模型训练成本以及日常运营成本。


其一,硬件采购成本和智算集群建设成本。如果以1万枚英伟达a800 gpu为标准构建智能算力集群,在10万元/枚的价格标准下,仅gpu采购成本就高达10亿元。一台服务器通常需要4枚-8枚gpu,一台搭载a800的服务器成本超过40万元。国内服务器均价为4万-5万元。一台gpu服务器的成本是普通服务器的10倍以上。服务器采购成本通常是数据中心建设成本的30%,一个智算集群的建设成本超过30亿元。


其二,模型训练成本。想要算法模型足够精准,需要进行多轮算法模型训练。有某外资云厂商的资深技术人士对《财经十一人》表示,chatgpt一次完整的模型训练成本超过1200万美元(约合8000万元)。如果进行10次完整的模型训练,成本便高达8亿元。gpu芯片价格公开,算力成本相对容易衡量。但ai大模型还需要数据采集、人工标注、模型训练等一系列工作,这些软性成本难以简单计算。不同效果的模型最终成本也不同。


其三,日常运营成本。数据中心内的模型训练需要消耗网络带宽、电力资源。此外,模型训练还需要算法工程师负责调教。上述成本也以亿元为单位计算。


也就是说,进入ai算力和ai大模型的赛道,前期硬件采购、集群建设成本就高达数十亿元。后期模型训练、日常运营以及产品研发成本同样高达数十亿元。一家管理咨询公司技术战略合伙人对《财经十一人》表示,生成式ai的投资规模高达百亿元。


微软大规模采购gpu组建智算集群,这在商业逻辑上行得通。2022年微软在云计算基础设施的支出超过250亿美元,当年微软营业利润828亿美元,微软云营业利润就超过400亿美元。仅微软云利润大于支出,大规模投资ai算力、大模型业务,这与微软的财务现状是相匹配的。


微软的ai计算有产品、有客户、有收入,形成了新的增长点。微软的客户通常会在云上租赁数千枚高性能gpu,进行语言模型学习,以此使用自己的启用生成式 ai。


微软旗下包括azure ml和openai。azure ml有200多家客户,包括制药公司拜耳、审计公司毕马威。azure ml连续四个季度收入增长超过100%。微软云甚至已经形成了“云-企业软件-ai计算”三条轮动增长的曲线。其中公有云azure营收增速约为30%-40%,软件业务营收增速约为50%-60%,ai算力营收增速超过100%。


中国企业用于云基础设施的资本支出有限,投资投资智算集群、ai大模型需要从有限的预算中分走支出。更大的挑战是,中短期内不仅无法盈利,还要亏更多钱。


科技公司的资本支出通常被用于采购服务器、建设数据中心、购置园区土地等固定资产。以亚马逊为例,2022年资本支出580亿美元,超过50%用于投资云基础设施。《财经十一人》查阅阿里、腾讯、百度最近一个财年的资本支出发现,三家数据分别为533亿元、622亿元、112亿元。


三家均未披露用于投资云基础设施的资本支出情况。假设三家企业与亚马逊相同,50%的资本支出用于投资云基础设施,数据分别为266亿元、311亿元、56亿元。投资数十亿元对资本支出宽裕的企业来说可以承受,但对资本支出不足的企业来说,则是负担。


国内宣布已建设智算集群的企业包括阿里云、华为、百度,但智算集群内gpu芯片数量不详。2022年,主要云厂商均把提高毛利、减少亏损作为战略重点。在这个阶段采购高性能gpu、建设智算集群需要巨额投入。不仅会加剧亏损,还需要依赖集团输血。这将考验企业管理层的战略意志。


大模型没条件,先做小模型


华为、阿里、腾讯、字节跳动、百度都有云业务,理论上有做出中国版chatgpt的入场券。


有云计算技术人士评价,有入场券的几家企业也会有实际的战略考量。比如,腾讯、百度、字节跳动有云也有大量数据,但云业务在亏损,长期投入的资金储备、战略意志存疑。华为靠自研昇腾芯片建立了大模型技术,但因“断供”影响无法获得英伟达的gpu芯片,而且作为硬件厂商缺少互联网公司的数据积累。


由于上述限制,能实现ai大模型商业化的企业少之又少。最终同时具备资金储备、战略意志和实际能力的企业将聊聊无几


目前,没有一家中国云厂商像微软一样拥有数万枚a100/h100芯片。中国云厂商的高性能gpu算力目前暂时不足。一种更务实的观点是,中国云厂商即使真的获取1万枚英伟达高性能gpu后,也不应该简单投入到中国版chatgpt这种大众的消费场景。


算力资源稀缺时,优先考虑是投入行业市场,为企业客户提供服务。一家管理咨询公司技术战略合伙人对《财经十一人》表示,chatgpt只是对话机器人,商业应用场景展示暂时有限。用户规模越大,成本也就越高,带来的亏损也会越大。ai算力和大模型如何在细分领域实现商业化,获取正向现金流才是关键。


中国市场的ai算力、大模型的商业化尚处于起步期。目前国内自动驾驶、金融等领域的少数客户开始采用ai算力。比如,小鹏汽车目前已经采用阿里云的智算中心进行自动驾驶的模型训练。


有数据中心产品经理对《财经十一人》表示,国内银行金融客户反欺诈已经大量运用模型训练技术,通常只需要租赁使用数百枚性能更低的gpu调教模型。同样是ai计算和模型训练,这是更低成本的凯发官网入口首页的解决方案。事实上,通用大模型无法解决行业具体问题,无论是金融、汽车、消费等各个领域都需要行业模型。


中国暂时没有足够的高性能gpu做大规模ai模型训练,可以先在细分领域做小模型。ai技术发展之快速超越了人们的认知,对中国公司来说,持续布局战略性发力才是根本之道。


来源:国际电子商情微信公众号


网站地图