如何选择模型
InfinityBlue 聚合了 GPT-5、Gemini、DeepSeek 等主流模型系列。选择模型时,先回答三个问题:- 需要什么能力?(通用对话、代码、视觉理解、图片生成、视频生成?)
- 质量要求?(旗舰级推理,还是”够用”的高性价比?)
- 延迟要求?(实时对话,还是批处理?)
能力对照表
| 模型 | 最适合的场景 | 说明 |
|---|---|---|
gpt-5.4 | 通用旗舰:复杂推理、长对话、工具调用 | OpenAI 旗舰,质量与能力均衡 |
gpt-5.5 | 最高能力上限,要求最佳效果时 | 最新超旗舰,成本高于 gpt-5.4 |
gpt-5.4-mini | 高频低延迟:摘要、分类、简单 Q&A | 成本显著低于旗舰,速度更快 |
gpt-5.3-codex | 代码生成、调试、代码审查 | 专为代码场景优化 |
gemini-3.1-pro-preview | 谷歌最新旗舰,强推理与多模态 | 支持图片、PDF 输入 |
gemini-2.5-pro | 超长文档分析(200 万 token 上下文) | 最适合整本书/大型代码库级别的输入 |
gemini-2.5-flash | 谷歌性价比旗舰,快速多模态 | 兼顾速度与质量,支持视觉输入 |
gemini-3-flash-preview | 谷歌新一代轻量模型,极低延迟 | 适合实时交互与高并发场景 |
deepseek-v4-pro | 推理型任务、中文场景、技术分析 | 推理能力强,中文理解出色 |
deepseek-v4-flash | 低成本推理,中文高频任务 | deepseek-v4-pro 的轻量版 |
gpt-image-2 | 高质量图片生成 | 基于 OpenAI 图像模型 |
nanobanana / nanobanana_2 | 快速图片生成,高性价比 | 轻量图像生成选项 |
nanobanana_pro | 高质量图片生成,性价比优于 gpt-image-2 | nanobanana 系列旗舰 |
veo_3_1 | 顶级视频生成(Google Veo) | 目前质量最高的视频模型 |
doubao-seedance-2-0-260128 | 视频生成,字节跳动 Seedance | 中文场景视频生成 |
kling-v2-5-turbo | 快速视频生成(可灵) | 快手可灵,生成速度快 |
当前价格请前往 价格页 查看,价格会定期更新。
延迟、成本与能力的权衡
在旗舰模型(如gpt-5.5、gemini-3.1-pro-preview、deepseek-v4-pro)与轻量模型(如 gpt-5.4-mini、gemini-2.5-flash、deepseek-v4-flash)之间,核心取舍如下:
- 首选轻量模型进行原型验证,确认效果后再考虑是否升级。
- 旗舰模型适合结果直接面向用户、错误代价高,或任务本身需要多步推理的场景。
- 延迟敏感型应用(如聊天 UI、实时补全)优先选 flash 或 mini 系列。
- 批量离线任务(数据抽取、文档处理)则可以用旗舰模型换取更高准确率。
评测方法建议
在不同模型上运行相同的金标测试集,而非凭直觉选择:- 收集 20–50 条有代表性的真实输入(覆盖边界情况)。
- 定义评估维度(准确率、格式合规性、延迟、每请求成本)。
- 对候选模型并行跑测,用相同 system prompt。
- 用量化指标比较,而非主观判断。
成本优化技巧
- 用最小满足质量的模型——
gpt-5.4-mini与gpt-5.4质量差距比想象的小,而成本差距显著。 - 设置
max_tokens防止意外生成过长输出。 - 精简 system prompt——更短的提示词意味着更少的输入 token,在高频场景下积少成多。
- 复用上下文——对话历史只传必要的 turns,不要每次都从头发送全量历史。