Token经济学:AI时代的新计量革命
Token是AI大模型的基本计量单位,围绕其生产、定价和消耗形成了一门新兴的Token经济学。本文从成本结构、杰文斯悖论、价值分化、Agent驱动的消耗爆发以及地缘政治五个维度,解析Token如何成为AI时代的核心度量衡,并指出当前产业瓶颈在上游芯片与基础设施层,而非模型层。
引言:为什么我们需要Token经济学
每个时代都有自己的计量单位。电力时代用千瓦时,石油时代用桶,那AI时代呢?答案是Token。
Token是大语言模型进行Next Token Prediction的基本单位,大约对应1-2个汉字。你每次和ChatGPT对话,背后都是一个个Token在被生成、被消耗、被计费。
黄仁勋在多个场合提出了Token经济学的五层框架:
| 层级 | 内容 | 类比 |
|---|---|---|
| 第一层 | 能源 | 发电厂 |
| 第二层 | 芯片 | 发电机组 |
| 第三层 | 基础设施(数据中心) | 电网 |
| 第四层 | 模型 | 电器制造商 |
| 第五层 | 应用 | 终端用电场景 |
为什么要搞出这么一套框架?道理很简单——有了标准计量单位,才能进行核算和交易。就像没有"千瓦时"这个概念,电力市场根本无法运转。Token就是AI产业的度量衡,围绕它的生产、定价、流通和消耗,构成了一门全新的经济学。
一、Token的成本:为什么不同Token价格不同
你可能注意到了,调用GPT 5.5和调用Claude 4.6的价格不一样,调用DeepSeek又便宜很多。这背后的逻辑是什么?
模型越大,Token越贵。 参数规模越大,生成每个Token需要激活的神经元越多,消耗的算力和电力就越大。
思考越深,Token越贵。 像"慢思考"模型,会在内部展开长长的思维链,一个问题可能内部消耗几千甚至上万Token才给你一个答案。你看到的是一段简短回复,背后是大量隐藏的推理Token在燃烧。
Claude的高端模型目前是最贵的。而中国模型因为工程优化做得好,价格普遍便宜一个数量级,在开源市场上很有竞争力。
还有一个重要趋势:Token成本每年下降5-10倍。 这个速度比摩尔定律还猛。2023年GPT-4级别的能力,放到2024年底已经便宜了几十倍。这种成本下降不是靠单一因素,而是芯片迭代、模型蒸馏、推理优化、工程架构改进等多重因素叠加的结果。
二、杰文斯悖论:越便宜用得越多
这里有一个反直觉的现象。
按理说,Token越来越便宜,企业在AI上的总支出应该下降才对吧?实际情况恰恰相反。
AI推理成本降了280倍,但行业总支出反而涨了2.4倍。
这就是经典的杰文斯悖论(Jevons Paradox)。19世纪英国经济学家杰文斯发现,蒸汽机效率提升后,煤炭消耗不降反升——因为更高效的蒸汽机让更多场景用得起煤炭了。
Token的故事一模一样。当一个API调用从几美分降到零点几美分,原来"消费不起"的场景突然变得可行了:
- 原来只有高价值客户才配AI客服,现在所有用户都能用
- 原来只做关键文档的翻译,现在所有内部资料都能过一遍AI
- 原来Agent太贵不敢跑,现在可以让它反复试错
全球云服务市场的大规模增长也在印证这一趋势。便宜不会压缩市场,反而会撑开市场。Token的总消耗量,在可预见的未来只会加速增长。
三、Token的价值:可编程性与价值分化
Token最有意思的属性是什么?可编程。
同样一个Token,你可以把它编程为律师助手,也可以让它当客服、当科研助手、当编剧。同样消耗100万Token,用在不同场景产生的价值天差地别。
一个很夸张但真实的现象是:5%的Token产生了80%的价值。
那些高价值Token集中在哪?
- AI for Science:辅助蛋白质结构预测、药物发现
- 代码生成:Cursor、GitHub Copilot每天帮程序员写大量代码
- 内容创作:短剧脚本、广告文案、营销素材的批量生成
- 金融分析:研报摘要、风险评估、合规审查
这也催生了三种不同的计费模式:
| 计费模式 | 代表 | 逻辑 |
|---|---|---|
| 按量计费 | OpenAI API、各家API | 用多少算多少 |
| 包月订阅 | ChatGPT Plus $20/月 | 固定费用,适合个人用户 |
| 按效果付费 | Sierra等客服AI | 解决一个工单收一次钱 |
按效果付费是最值得关注的模式。Sierra做AI客服,不按Token收费,而是按"成功解决的客户问题"收费。这相当于把Token成本内部消化,对外只卖结果。
还有一个值得关注的概念叫**"幽灵GDP"**。什么意思呢?以前翻译一份文件要花500块请人做,现在AI两分钟搞定,成本几毛钱。这500块的经济活动消失了,但工作确实完成了。劳动力市场出现K型分化——会用AI的人产出暴涨,不会用的人被替代,中间层被挤压。GDP统计可能捕捉不到这种变化,但它真实地在发生。
四、Token消耗的爆发:从人用到Agent用
目前大部分人用AI,就是聊聊天、问问问题,一次对话消耗几百到几千Token。但真正的爆发点不在这里。
Agent才是Token消耗的大头。
人对话消耗的Token和Agent执行任务消耗的Token,差距可能是几十倍到几百倍。一个Agent要完成一项任务——比如帮你做竞品调研——它可能需要:搜索十几个网页、阅读大量文本、多轮自我推理、生成中间草稿、反复修改……整个过程下来,轻松消耗几十万Token。
英伟达的做法很有代表性:为每个工程师配备年薪一半额度的Token预算。 工程师年薪50万美金,就给25万美金的Token额度。这笔钱不是让工程师聊天用的,而是让Agent帮他们写代码、跑测试、做调试。
这意味着什么?个人指挥AI完成工作的能力,将成为核心竞争力。同样的Token预算,有人能让Agent产出10倍价值,有人烧完了也没什么成果。这种能力差异会导致巨大的个体分化。
但问题也随之而来——算力瓶颈。
当Agent大规模铺开,Token消耗量会呈指数级增长。当前的瓶颈不只是GPU:
- 存储:Agent需要大量上下文,内存和存储压力巨大
- 芯片供给:台积电先进制程产能有限,英伟达GPU持续供不应求
- 能源:一个大型数据中心的耗电量堪比一座小城市
算力和能源正在上升为国家战略资源。这不是夸张,而是正在发生的现实。微软、谷歌、亚马逊都在签核电站合同,就为了给数据中心供电。
五、Token出海与地缘政治新挑战
Token经济学还有一个容易被忽视的维度:地缘政治。
中国的大模型跑在海外数据中心上,服务海外用户——这本质上是什么?是算法出海,不是电力出海,也不是硬件出海。模型权重部署在海外服务器上,消耗的是当地的电力和算力,但核心知识产权在国内。
这带来一系列新问题:
数据安全。 你用Claude Code写代码,代码会传给Anthropic的服务器。你用国内模型的API,数据流向同样需要关注。跨境Token流动天然涉及数据跨境问题。
统计难题。 一个中国公司用美国模型的API处理业务,这笔支出算进口还是服务贸易?一个海外用户调用DeepSeek,这算中国的数字出口吗?现有的贸易统计框架还没准备好回答这些问题。
劳动力替代的连锁反应。 当Token可以替代大量白领劳动,各国的就业政策、社会保障体系都面临重新设计。这不只是技术问题,更是政治问题。
Token正在全方位重塑商业模式和地缘格局。新课题一个接一个冒出来:Token跨境统计怎么做?数据安全怎么评估?被替代的劳动力怎么安置?人的价值如何重新衡量?
结语:Token经济学开启的全新课题
回到黄仁勋的五层框架,Token经济学最大的价值在于:它帮我们看清产业瓶颈到底在哪。
现在的瓶颈不在模型公司。模型层的竞争已经白热化,开源模型快速追赶,成本持续下降。真正卡脖子的是上游——芯片和基础设施。谁能造出更多更好的GPU,谁能建出更大更稳的数据中心,谁才握住了这条产业链的命脉。
从成本到价值,从消耗增长到地缘博弈,Token正在成为AI时代的核心度量衡。围绕它,一系列新规则、新制度亟待建立。这不是某一个公司或某一个国家能独自完成的事情,但谁先想清楚、先行动,谁就能在这场计量革命中占据先机。