OpenKitMule 指南 · 2026-07-04
上线前估算 LLM API 费用:GPT-4o、Claude、DeepSeek 价格对比与实用指南
你的 prompt 已经跑通了。现在 CTO 还没问你,但你心里清楚,那个迟早会来:「每天 1 万次调用,这玩意儿要花多少钱?」
答案不能是「不贵」或者「到时候再说」。它是个数字,而且你可以在 60 秒内算出来。这篇指南会讲清楚 token 计费原理、四大主流模型家族的当前价格对比,以及一个零依赖 CLI 工具,让你跳过 Excel 直接拿到答案。
1. 计费单位是 token,不是字符
LLM 提供商按 token 计费,不是按字符或字数。一个 token 大约是 3-4 个英文字符,或 1-2 个汉字。每次请求有两个 token 计数:
- 输入 token — 你发送的所有内容:系统提示、用户消息、历史对话、工具定义、检索上下文。
- 输出 token — 模型生成的回复内容。
输出 token 的价格几乎总是比输入高,通常高 3-5 倍。降低 LLM 账单最便宜的方法通常是缩短输出,而不是缩短输入。
2. 当前价格(每 100 万 token,美元)
以下是目前大多数团队实际使用的模型。数字来自各厂商公开定价,签约前务必到官方定价页确认。
| 模型 | 输入 | 输出 | 适用场景 |
|---|---|---|---|
| GPT-4o | $2.50 | $10.00 | 通用推理、多模态。 |
| GPT-4o mini | $0.15 | $0.60 | 最便宜的 OpenAI 档位;高并发任务的默认选择。 |
| GPT-4 Turbo | $10.00 | $30.00 | 旧版档位;通常值得换到 4o。 |
| Claude 3.5 Sonnet | $3.00 | $15.00 | 长文写作、深度推理、代码。 |
| Claude 3 Haiku | $0.25 | $1.25 | 最快的 Claude;分类管道够用。 |
| Gemini 1.5 Pro | $1.25 | $5.00 | 超长上下文(最高 200 万 token)。 |
| Gemini 1.5 Flash | $0.075 | $0.30 | 本表中最便宜的档位。 |
| DeepSeek V3 | $0.27 | $1.10 | 推理密集型任务中性价比强。 |
| DeepSeek R1 | $0.55 | $2.19 | 推理模型;数学和代码表现好。 |
3. 60 秒估算公式
公式很简单:
费用 = (输入_token / 1,000,000) × 输入单价
+ (输出_token / 1,000,000) × 输出单价
举个例子:你在做一个客服分类器。每次调用发送约 800 输入 token(系统提示 + 用户消息),生成约 60 输出 token(一个 JSON 标签)。预期每天 1 万次调用。
| 模型 | 单次 | 每天(1 万次) | 每月 |
|---|---|---|---|
| Gemini 1.5 Flash | $0.000078 | $0.78 | $23 |
| GPT-4o mini | $0.000156 | $1.56 | $47 |
| Claude 3 Haiku | $0.000275 | $2.75 | $83 |
| DeepSeek V3 | $0.000282 | $2.82 | $85 |
| Claude 3.5 Sonnet | $0.003300 | $33.00 | $990 |
同一任务在 Gemini 1.5 Flash 上运行,比 Claude 3.5 Sonnet 便宜约 42 倍。为任务选对模型档位,是 LLM 功能成本决策中杠杆最高的一步。
4. 实际估算中容易踩的坑
- 输出 token 被严重低估。开发者按 200 token 的 JSON 回复做预算,模型却写了一个 800 token 的友好解释。在承诺预算前,至少用 50 个真实输入采样输出长度。
- 重试会成倍增加费用。如果 5% 的请求进入重试循环(限流、JSON 解析失败、工具错误),实际账单会高 1.05 倍,对推理模型(会在完成前生成很长的隐藏思考链)更糟。
- 检索上下文在日志前是隐形的。RAG 管道会静默地在每次调用中追加数千个检索 token。在生产环境中记录实际提示大小,而不是模板大小。
- 不同厂商的 tokenizer 不同。同一句英文在 GPT、Claude、Gemini 上的 token 数略有差异。严肃规划时,用各厂商自己的 tokenizer;粗略估算时,「字符数除以 4」对典型英文文本的误差约在 10% 以内。
- Prompt 缓存会改变算式。Anthropic 和 OpenAI 现在对缓存的输入 token 大幅折扣。如果你的系统提示在每次调用中稳定不变,设计时就要考虑这一点。
5. 跳过 Excel:免费 CLI 工具
OpenKitMule 维护了一个叫 PromptForge 的小工具,可以在终端里直接帮你算这笔账 — token 计数、费用估算、模板渲染、以及两个 prompt 的 A/B 对比。它是一个单文件 Python 脚本,没有第三方依赖(仅 Python 3.9+ 标准库)。
下载套件后的典型用法:
python main.py tokens "Summarize this article: ..." --model gpt-4o-mini
python main.py cost "Summarize this article: {article}" --model gpt-4o-mini --count 10000
python main.py compare "You are a helpful assistant." "You are a senior Python expert."
输出是结构化 JSON 或 Markdown,可以接入 CI 流水线,在 prompt 变更上线前自动捕获成本回归。
6. 延伸阅读
- AI Agent 工具包怎么用:把代码交给 Agent 的最短路径 — OpenKitMule 套件的设计思路。
- PromptForge — 上面提到的 CLI 工具。
- Agent Scraper Kit — LLM 驱动的爬虫框架,大规模使用时成本估算尤其重要。
- News Refiner Kit — 本地 LLM 替代方案,零 API 成本。
试试费用估算器
PromptForge 免费、离线优先,下载到运行大约一分钟。从「我们应该知道」到「这是月度数字」。