DeepSeek 们的成本,是怎么计算的?
作者:王璐,定焦 One(dingjiaoone)原创
DeepSeek彻底让全球都坐不住了。
昨天,马斯克携“地球上最聪明的AI”——Gork 3在直播中亮相,自称其“推理能力超越目前所有已知模型”,在推理-测试时间得分上,也好于DeepSeek R1、OpenAI o1。不久前,国民级应用微信宣布接入DeepSeek R1,正在灰度测试中,这一王炸组合被外界认为AI搜索领域要变天。
如今,微软、英伟达、华为云、腾讯云等全球多家科技大厂都已接入DeepSeek。网友也开发出了算命、预测彩票等新奇玩法,其热度直接转化成了真金白银,助推DeepSeek估值一路上涨,最高已经达到了千亿美金。
DeepSeek能出圈,除了免费和好用之外,还因为其仅以557.6万美元的GPU成本,就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型。毕竟,在过去几年的“百模大战”中,国内外AI大模型公司都砸了几十亿甚至上百亿美元。Gork 3成为“全球最聪明AI”的代价也是高昂的,马斯克称Gork 3训练累计消耗20万块英伟达GPU(单块成本大约在3万美元),而业内人士估计DeepSeek仅在1万多张。
但也有人在成本上卷DeepSeek。近日李飞飞团队称,仅花费不到50美元的云计算费用,就训练出了一款推理模型S1,其在数学和编码能力测试中的表现媲美OpenAI的o1和DeepSeek的R1。但需要注意的是,S1是中型模型,与DeepSeek R1的上千亿参数级别存在差距。
即便如此,从50美元到上百亿美元的巨大训练成本差异,还是让大家好奇,一方面想知道DeepSeek的能力有多强,为什么各家都在试图赶上甚至超过它,另一方面,训练一个大模型究竟需要多少钱?它涉及哪些环节?未来,是否还有可能进一步降低训练成本?
被“以偏概全”的DeepSeek在从业者看来,在解答这些问题前,得先捋清几个概念。
首先是对DeepSeek的理解“以偏概全”。大家惊叹的是它众多大模型之中的一个——推理大模型DeepSeek-R1,但它还有其他的大模型,不同大模型产品之间的功能不一样。而557.6万美元,是其通用大模型DeepSeek-V3训练过程中的GPU花费,可以理解为净算力成本。
简单对比下:
-
通用大模型:
接收明确指令,拆解步骤,用户要把任务描述清楚,包括回答顺序,比如用户需要提示是先做总结再给出标题,还是相反。
回复速度较快,基于概率预测(快速反应),通过大量数据预测答案。
-
推理大模型:
接收简单明了、聚焦目标的任务,用户要什么直接说,它可以自己做规划。
回复速度较慢,基于链式思维(慢速思考),推理问题步骤得到答案。
分享链接: - 区块链日报
免责声明:本站所有内容不构成投资建议,币市有风险、投资请慎重。