AI大模型

Token经济学：AI时代的新计量革命

Token是AI大模型的基本计量单位，围绕其生产、定价和消耗形成了一门新兴的Token经济学。本文从成本结构、杰文斯悖论、价值分化、Agent驱动的消耗爆发以及地缘政治五个维度，解析Token如何成为AI时代的核心度量衡，并指出当前产业瓶颈在上游芯片与基础设施层，而非模型层。

晨涧云

2026-05-21 — 阅读时间 9 分钟

引言：为什么我们需要Token经济学

每个时代都有自己的计量单位。电力时代用千瓦时，石油时代用桶，那AI时代呢？答案是Token。

Token是大语言模型进行Next Token Prediction的基本单位，大约对应1-2个汉字。你每次和ChatGPT对话，背后都是一个个Token在被生成、被消耗、被计费。

黄仁勋在多个场合提出了Token经济学的五层框架：

层级	内容	类比
第一层	能源	发电厂
第二层	芯片	发电机组
第三层	基础设施（数据中心）	电网
第四层	模型	电器制造商
第五层	应用	终端用电场景

为什么要搞出这么一套框架？道理很简单——有了标准计量单位，才能进行核算和交易。就像没有"千瓦时"这个概念，电力市场根本无法运转。Token就是AI产业的度量衡，围绕它的生产、定价、流通和消耗，构成了一门全新的经济学。

一、Token的成本：为什么不同Token价格不同

你可能注意到了，调用GPT 5.5和调用Claude 4.6的价格不一样，调用DeepSeek又便宜很多。这背后的逻辑是什么？

模型越大，Token越贵。 参数规模越大，生成每个Token需要激活的神经元越多，消耗的算力和电力就越大。

思考越深，Token越贵。 像"慢思考"模型，会在内部展开长长的思维链，一个问题可能内部消耗几千甚至上万Token才给你一个答案。你看到的是一段简短回复，背后是大量隐藏的推理Token在燃烧。

Claude的高端模型目前是最贵的。而中国模型因为工程优化做得好，价格普遍便宜一个数量级，在开源市场上很有竞争力。

还有一个重要趋势：Token成本每年下降5-10倍。 这个速度比摩尔定律还猛。2023年GPT-4级别的能力，放到2024年底已经便宜了几十倍。这种成本下降不是靠单一因素，而是芯片迭代、模型蒸馏、推理优化、工程架构改进等多重因素叠加的结果。

二、杰文斯悖论：越便宜用得越多

这里有一个反直觉的现象。

按理说，Token越来越便宜，企业在AI上的总支出应该下降才对吧？实际情况恰恰相反。

AI推理成本降了280倍，但行业总支出反而涨了2.4倍。

这就是经典的杰文斯悖论（Jevons Paradox）。19世纪英国经济学家杰文斯发现，蒸汽机效率提升后，煤炭消耗不降反升——因为更高效的蒸汽机让更多场景用得起煤炭了。

Token的故事一模一样。当一个API调用从几美分降到零点几美分，原来"消费不起"的场景突然变得可行了：

原来只有高价值客户才配AI客服，现在所有用户都能用
原来只做关键文档的翻译，现在所有内部资料都能过一遍AI
原来Agent太贵不敢跑，现在可以让它反复试错

全球云服务市场的大规模增长也在印证这一趋势。便宜不会压缩市场，反而会撑开市场。Token的总消耗量，在可预见的未来只会加速增长。

三、Token的价值：可编程性与价值分化

Token最有意思的属性是什么？可编程。

同样一个Token，你可以把它编程为律师助手，也可以让它当客服、当科研助手、当编剧。同样消耗100万Token，用在不同场景产生的价值天差地别。

一个很夸张但真实的现象是：5%的Token产生了80%的价值。

那些高价值Token集中在哪？

AI for Science：辅助蛋白质结构预测、药物发现
代码生成：Cursor、GitHub Copilot每天帮程序员写大量代码
内容创作：短剧脚本、广告文案、营销素材的批量生成
金融分析：研报摘要、风险评估、合规审查

这也催生了三种不同的计费模式：

计费模式	代表	逻辑
按量计费	OpenAI API、各家API	用多少算多少
包月订阅	ChatGPT Plus $20/月	固定费用，适合个人用户
按效果付费	Sierra等客服AI	解决一个工单收一次钱

按效果付费是最值得关注的模式。Sierra做AI客服，不按Token收费，而是按"成功解决的客户问题"收费。这相当于把Token成本内部消化，对外只卖结果。

还有一个值得关注的概念叫**"幽灵GDP"**。什么意思呢？以前翻译一份文件要花500块请人做，现在AI两分钟搞定，成本几毛钱。这500块的经济活动消失了，但工作确实完成了。劳动力市场出现K型分化——会用AI的人产出暴涨，不会用的人被替代，中间层被挤压。GDP统计可能捕捉不到这种变化，但它真实地在发生。

四、Token消耗的爆发：从人用到Agent用

目前大部分人用AI，就是聊聊天、问问问题，一次对话消耗几百到几千Token。但真正的爆发点不在这里。

Agent才是Token消耗的大头。

人对话消耗的Token和Agent执行任务消耗的Token，差距可能是几十倍到几百倍。一个Agent要完成一项任务——比如帮你做竞品调研——它可能需要：搜索十几个网页、阅读大量文本、多轮自我推理、生成中间草稿、反复修改……整个过程下来，轻松消耗几十万Token。

英伟达的做法很有代表性：为每个工程师配备年薪一半额度的Token预算。 工程师年薪50万美金，就给25万美金的Token额度。这笔钱不是让工程师聊天用的，而是让Agent帮他们写代码、跑测试、做调试。

这意味着什么？个人指挥AI完成工作的能力，将成为核心竞争力。同样的Token预算，有人能让Agent产出10倍价值，有人烧完了也没什么成果。这种能力差异会导致巨大的个体分化。

但问题也随之而来——算力瓶颈。

当Agent大规模铺开，Token消耗量会呈指数级增长。当前的瓶颈不只是GPU：

存储：Agent需要大量上下文，内存和存储压力巨大
芯片供给：台积电先进制程产能有限，英伟达GPU持续供不应求
能源：一个大型数据中心的耗电量堪比一座小城市

算力和能源正在上升为国家战略资源。这不是夸张，而是正在发生的现实。微软、谷歌、亚马逊都在签核电站合同，就为了给数据中心供电。

五、Token出海与地缘政治新挑战

Token经济学还有一个容易被忽视的维度：地缘政治。

中国的大模型跑在海外数据中心上，服务海外用户——这本质上是什么？是算法出海，不是电力出海，也不是硬件出海。模型权重部署在海外服务器上，消耗的是当地的电力和算力，但核心知识产权在国内。

这带来一系列新问题：

数据安全。 你用Claude Code写代码，代码会传给Anthropic的服务器。你用国内模型的API，数据流向同样需要关注。跨境Token流动天然涉及数据跨境问题。

统计难题。 一个中国公司用美国模型的API处理业务，这笔支出算进口还是服务贸易？一个海外用户调用DeepSeek，这算中国的数字出口吗？现有的贸易统计框架还没准备好回答这些问题。

劳动力替代的连锁反应。 当Token可以替代大量白领劳动，各国的就业政策、社会保障体系都面临重新设计。这不只是技术问题，更是政治问题。

Token正在全方位重塑商业模式和地缘格局。新课题一个接一个冒出来：Token跨境统计怎么做？数据安全怎么评估？被替代的劳动力怎么安置？人的价值如何重新衡量？

结语：Token经济学开启的全新课题

回到黄仁勋的五层框架，Token经济学最大的价值在于：它帮我们看清产业瓶颈到底在哪。

现在的瓶颈不在模型公司。模型层的竞争已经白热化，开源模型快速追赶，成本持续下降。真正卡脖子的是上游——芯片和基础设施。谁能造出更多更好的GPU，谁能建出更大更稳的数据中心，谁才握住了这条产业链的命脉。

从成本到价值，从消耗增长到地缘博弈，Token正在成为AI时代的核心度量衡。围绕它，一系列新规则、新制度亟待建立。这不是某一个公司或某一个国家能独自完成的事情，但谁先想清楚、先行动，谁就能在这场计量革命中占据先机。

Token经济学：AI时代的新计量革命

晨涧云

引言：为什么我们需要Token经济学

一、Token的成本：为什么不同Token价格不同

二、杰文斯悖论：越便宜用得越多

三、Token的价值：可编程性与价值分化

四、Token消耗的爆发：从人用到Agent用

五、Token出海与地缘政治新挑战

结语：Token经济学开启的全新课题

阅读更多

Kimi K3全解析：2.8万亿参数旗舰上线，智能体编程新答卷

GPT-5.6发布：三档模型体系与Codex、ChatGPT大整合解读

Seedream 5.0 Pro发布：字节图像模型的设计级跃升与真实差距

晨涧云GPU算力资源盘点：2026年7月，哪些卡好租，哪些卡要等