OpenKitMule 指南 · 2026-07-04

上线前估算 LLM API 费用：GPT-4o、Claude、DeepSeek 价格对比与实用指南

你的 prompt 已经跑通了。现在 CTO 还没问你，但你心里清楚，那个迟早会来：「每天 1 万次调用，这玩意儿要花多少钱？」

答案不能是「不贵」或者「到时候再说」。它是个数字，而且你可以在 60 秒内算出来。这篇指南会讲清楚 token 计费原理、四大主流模型家族的当前价格对比，以及一个零依赖 CLI 工具，让你跳过 Excel 直接拿到答案。

1. 计费单位是 token，不是字符

LLM 提供商按 token 计费，不是按字符或字数。一个 token 大约是 3-4 个英文字符，或 1-2 个汉字。每次请求有两个 token 计数：

输入 token — 你发送的所有内容：系统提示、用户消息、历史对话、工具定义、检索上下文。
输出 token — 模型生成的回复内容。

输出 token 的价格几乎总是比输入高，通常高 3-5 倍。降低 LLM 账单最便宜的方法通常是缩短输出，而不是缩短输入。

2. 当前价格（每 100 万 token，美元）

以下是目前大多数团队实际使用的模型。数字来自各厂商公开定价，签约前务必到官方定价页确认。

模型	输入	输出	适用场景
GPT-4o	$2.50	$10.00	通用推理、多模态。
GPT-4o mini	$0.15	$0.60	最便宜的 OpenAI 档位；高并发任务的默认选择。
GPT-4 Turbo	$10.00	$30.00	旧版档位；通常值得换到 4o。
Claude 3.5 Sonnet	$3.00	$15.00	长文写作、深度推理、代码。
Claude 3 Haiku	$0.25	$1.25	最快的 Claude；分类管道够用。
Gemini 1.5 Pro	$1.25	$5.00	超长上下文（最高 200 万 token）。
Gemini 1.5 Flash	$0.075	$0.30	本表中最便宜的档位。
DeepSeek V3	$0.27	$1.10	推理密集型任务中性价比强。
DeepSeek R1	$0.55	$2.19	推理模型；数学和代码表现好。

3. 60 秒估算公式

公式很简单：

费用 = (输入_token / 1,000,000) × 输入单价
     + (输出_token / 1,000,000) × 输出单价

举个例子：你在做一个客服分类器。每次调用发送约 800 输入 token（系统提示 + 用户消息），生成约 60 输出 token（一个 JSON 标签）。预期每天 1 万次调用。

模型	单次	每天（1 万次）	每月
Gemini 1.5 Flash	$0.000078	$0.78	$23
GPT-4o mini	$0.000156	$1.56	$47
Claude 3 Haiku	$0.000275	$2.75	$83
DeepSeek V3	$0.000282	$2.82	$85
Claude 3.5 Sonnet	$0.003300	$33.00	$990

同一任务在 Gemini 1.5 Flash 上运行，比 Claude 3.5 Sonnet 便宜约 42 倍。为任务选对模型档位，是 LLM 功能成本决策中杠杆最高的一步。

4. 实际估算中容易踩的坑

输出 token 被严重低估。开发者按 200 token 的 JSON 回复做预算，模型却写了一个 800 token 的友好解释。在承诺预算前，至少用 50 个真实输入采样输出长度。
重试会成倍增加费用。如果 5% 的请求进入重试循环（限流、JSON 解析失败、工具错误），实际账单会高 1.05 倍，对推理模型（会在完成前生成很长的隐藏思考链）更糟。
检索上下文在日志前是隐形的。RAG 管道会静默地在每次调用中追加数千个检索 token。在生产环境中记录实际提示大小，而不是模板大小。
不同厂商的 tokenizer 不同。同一句英文在 GPT、Claude、Gemini 上的 token 数略有差异。严肃规划时，用各厂商自己的 tokenizer；粗略估算时，「字符数除以 4」对典型英文文本的误差约在 10% 以内。
Prompt 缓存会改变算式。Anthropic 和 OpenAI 现在对缓存的输入 token 大幅折扣。如果你的系统提示在每次调用中稳定不变，设计时就要考虑这一点。

5. 跳过 Excel：免费 CLI 工具

OpenKitMule 维护了一个叫 PromptForge 的小工具，可以在终端里直接帮你算这笔账 — token 计数、费用估算、模板渲染、以及两个 prompt 的 A/B 对比。它是一个单文件 Python 脚本，没有第三方依赖（仅 Python 3.9+ 标准库）。

下载套件后的典型用法：

python main.py tokens "Summarize this article: ..." --model gpt-4o-mini
python main.py cost "Summarize this article: {article}" --model gpt-4o-mini --count 10000
python main.py compare "You are a helpful assistant." "You are a senior Python expert."

输出是结构化 JSON 或 Markdown，可以接入 CI 流水线，在 prompt 变更上线前自动捕获成本回归。

6. 延伸阅读

AI Agent 工具包怎么用：把代码交给 Agent 的最短路径 — OpenKitMule 套件的设计思路。
PromptForge — 上面提到的 CLI 工具。
Agent Scraper Kit — LLM 驱动的爬虫框架，大规模使用时成本估算尤其重要。
News Refiner Kit — 本地 LLM 替代方案，零 API 成本。

试试费用估算器

PromptForge 免费、离线优先，下载到运行大约一分钟。从「我们应该知道」到「这是月度数字」。

打开 PromptForge