企业 AI 成本为什么高?
- 模型选择不当:所有请求都用旗舰模型
- Token 浪费严重:Prompt 冗长、无缓存、无压缩
- 缺乏成本监控:不知道钱花在哪里
技巧一:混合模型策略(节省 40-60%)
| 请求类型 | 推荐模型 | 成本 |
|---|---|---|
| 简单问答/分类 | DeepSeek V4 Flash | ¥2/M输出 |
| 内容生成/摘要 | GPT-4o-mini / Qwen3-Plus | ¥2-5/M输出 |
| 代码生成/复杂推理 | Claude Sonnet 4.6 | ¥108/M输出 |
| 最高难度 | GPT-5.5 / Claude Opus 4.6 | ¥180-220/M输出 |
实测:70% 简单 + 20% 中等 + 10% 复杂,综合成本比全用旗舰低 55%。
技巧二:开启 Prompt 缓存(节省 50-95%)
- GPT-4o:缓存命中后 ¥9.06/M
- Claude 系列:缓存命中省 90%
- DeepSeek:缓存仅 ¥0.02/M
技巧三:用 Batch API(节省 50%)
非实时任务(批量审核、数据清洗)使用 Batch API享5折优惠。
技巧四:精简和复用 Prompt
- 删除冗余描述
- 用 Few-shot 而非 Long-shot
- 复用对话历史不重复发送
技巧五:建立成本监控体系
- 记录每次 API 调用的 Token 消耗
- 按模型、按模块统计成本
- 设置成本预警
- 每月审查并优化高成本模块
真实案例
| 优化前 | 优化后 | |
|---|---|---|
| 模型策略 | 全用 GPT-4o | 混合策略 |
| 缓存 | 无 | 开启缓存 |
| 月成本 | ¥48,000 | ¥16,800 |
| 节省 | 65% |