Token经济学:AI时代的新计量革命

Token是AI大模型的基本计量单位,围绕其生产、定价和消耗形成了一门新兴的Token经济学。本文从成本结构、杰文斯悖论、价值分化、Agent驱动的消耗爆发以及地缘政治五个维度,解析Token如何成为AI时代的核心度量衡,并指出当前产业瓶颈在上游芯片与基础设施层,而非模型层。

Token经济学

引言:为什么我们需要Token经济学

每个时代都有自己的计量单位。电力时代用千瓦时,石油时代用桶,那AI时代呢?答案是Token。

Token是大语言模型进行Next Token Prediction的基本单位,大约对应1-2个汉字。你每次和ChatGPT对话,背后都是一个个Token在被生成、被消耗、被计费。

黄仁勋在多个场合提出了Token经济学的五层框架:

层级内容类比
第一层能源发电厂
第二层芯片发电机组
第三层基础设施(数据中心)电网
第四层模型电器制造商
第五层应用终端用电场景

为什么要搞出这么一套框架?道理很简单——有了标准计量单位,才能进行核算和交易。就像没有"千瓦时"这个概念,电力市场根本无法运转。Token就是AI产业的度量衡,围绕它的生产、定价、流通和消耗,构成了一门全新的经济学。

一、Token的成本:为什么不同Token价格不同

你可能注意到了,调用GPT 5.5和调用Claude 4.6的价格不一样,调用DeepSeek又便宜很多。这背后的逻辑是什么?

模型越大,Token越贵。 参数规模越大,生成每个Token需要激活的神经元越多,消耗的算力和电力就越大。

思考越深,Token越贵。 像"慢思考"模型,会在内部展开长长的思维链,一个问题可能内部消耗几千甚至上万Token才给你一个答案。你看到的是一段简短回复,背后是大量隐藏的推理Token在燃烧。

Claude的高端模型目前是最贵的。而中国模型因为工程优化做得好,价格普遍便宜一个数量级,在开源市场上很有竞争力。

还有一个重要趋势:Token成本每年下降5-10倍。 这个速度比摩尔定律还猛。2023年GPT-4级别的能力,放到2024年底已经便宜了几十倍。这种成本下降不是靠单一因素,而是芯片迭代、模型蒸馏、推理优化、工程架构改进等多重因素叠加的结果。

二、杰文斯悖论:越便宜用得越多

这里有一个反直觉的现象。

按理说,Token越来越便宜,企业在AI上的总支出应该下降才对吧?实际情况恰恰相反。

AI推理成本降了280倍,但行业总支出反而涨了2.4倍。

这就是经典的杰文斯悖论(Jevons Paradox)。19世纪英国经济学家杰文斯发现,蒸汽机效率提升后,煤炭消耗不降反升——因为更高效的蒸汽机让更多场景用得起煤炭了。

Token的故事一模一样。当一个API调用从几美分降到零点几美分,原来"消费不起"的场景突然变得可行了:

  • 原来只有高价值客户才配AI客服,现在所有用户都能用
  • 原来只做关键文档的翻译,现在所有内部资料都能过一遍AI
  • 原来Agent太贵不敢跑,现在可以让它反复试错

全球云服务市场的大规模增长也在印证这一趋势。便宜不会压缩市场,反而会撑开市场。Token的总消耗量,在可预见的未来只会加速增长。

三、Token的价值:可编程性与价值分化

Token最有意思的属性是什么?可编程。

同样一个Token,你可以把它编程为律师助手,也可以让它当客服、当科研助手、当编剧。同样消耗100万Token,用在不同场景产生的价值天差地别。

一个很夸张但真实的现象是:5%的Token产生了80%的价值。

那些高价值Token集中在哪?

  • AI for Science:辅助蛋白质结构预测、药物发现
  • 代码生成:Cursor、GitHub Copilot每天帮程序员写大量代码
  • 内容创作:短剧脚本、广告文案、营销素材的批量生成
  • 金融分析:研报摘要、风险评估、合规审查

这也催生了三种不同的计费模式:

计费模式代表逻辑
按量计费OpenAI API、各家API用多少算多少
包月订阅ChatGPT Plus $20/月固定费用,适合个人用户
按效果付费Sierra等客服AI解决一个工单收一次钱

按效果付费是最值得关注的模式。Sierra做AI客服,不按Token收费,而是按"成功解决的客户问题"收费。这相当于把Token成本内部消化,对外只卖结果。

还有一个值得关注的概念叫**"幽灵GDP"**。什么意思呢?以前翻译一份文件要花500块请人做,现在AI两分钟搞定,成本几毛钱。这500块的经济活动消失了,但工作确实完成了。劳动力市场出现K型分化——会用AI的人产出暴涨,不会用的人被替代,中间层被挤压。GDP统计可能捕捉不到这种变化,但它真实地在发生。

四、Token消耗的爆发:从人用到Agent用

目前大部分人用AI,就是聊聊天、问问问题,一次对话消耗几百到几千Token。但真正的爆发点不在这里。

Agent才是Token消耗的大头。

人对话消耗的Token和Agent执行任务消耗的Token,差距可能是几十倍到几百倍。一个Agent要完成一项任务——比如帮你做竞品调研——它可能需要:搜索十几个网页、阅读大量文本、多轮自我推理、生成中间草稿、反复修改……整个过程下来,轻松消耗几十万Token。

英伟达的做法很有代表性:为每个工程师配备年薪一半额度的Token预算。 工程师年薪50万美金,就给25万美金的Token额度。这笔钱不是让工程师聊天用的,而是让Agent帮他们写代码、跑测试、做调试。

这意味着什么?个人指挥AI完成工作的能力,将成为核心竞争力。同样的Token预算,有人能让Agent产出10倍价值,有人烧完了也没什么成果。这种能力差异会导致巨大的个体分化。

但问题也随之而来——算力瓶颈。

当Agent大规模铺开,Token消耗量会呈指数级增长。当前的瓶颈不只是GPU:

  • 存储:Agent需要大量上下文,内存和存储压力巨大
  • 芯片供给:台积电先进制程产能有限,英伟达GPU持续供不应求
  • 能源:一个大型数据中心的耗电量堪比一座小城市

算力和能源正在上升为国家战略资源。这不是夸张,而是正在发生的现实。微软、谷歌、亚马逊都在签核电站合同,就为了给数据中心供电。

五、Token出海与地缘政治新挑战

Token经济学还有一个容易被忽视的维度:地缘政治。

中国的大模型跑在海外数据中心上,服务海外用户——这本质上是什么?是算法出海,不是电力出海,也不是硬件出海。模型权重部署在海外服务器上,消耗的是当地的电力和算力,但核心知识产权在国内。

这带来一系列新问题:

数据安全。 你用Claude Code写代码,代码会传给Anthropic的服务器。你用国内模型的API,数据流向同样需要关注。跨境Token流动天然涉及数据跨境问题。

统计难题。 一个中国公司用美国模型的API处理业务,这笔支出算进口还是服务贸易?一个海外用户调用DeepSeek,这算中国的数字出口吗?现有的贸易统计框架还没准备好回答这些问题。

劳动力替代的连锁反应。 当Token可以替代大量白领劳动,各国的就业政策、社会保障体系都面临重新设计。这不只是技术问题,更是政治问题。

Token正在全方位重塑商业模式和地缘格局。新课题一个接一个冒出来:Token跨境统计怎么做?数据安全怎么评估?被替代的劳动力怎么安置?人的价值如何重新衡量?

结语:Token经济学开启的全新课题

回到黄仁勋的五层框架,Token经济学最大的价值在于:它帮我们看清产业瓶颈到底在哪。

现在的瓶颈不在模型公司。模型层的竞争已经白热化,开源模型快速追赶,成本持续下降。真正卡脖子的是上游——芯片和基础设施。谁能造出更多更好的GPU,谁能建出更大更稳的数据中心,谁才握住了这条产业链的命脉。

从成本到价值,从消耗增长到地缘博弈,Token正在成为AI时代的核心度量衡。围绕它,一系列新规则、新制度亟待建立。这不是某一个公司或某一个国家能独自完成的事情,但谁先想清楚、先行动,谁就能在这场计量革命中占据先机。

阅读更多