跳转到主要内容

如何选择模型

InfinityBlue 聚合了 GPT-5、Gemini、DeepSeek 等主流模型系列。选择模型时,先回答三个问题:
  1. 需要什么能力?(通用对话、代码、视觉理解、图片生成、视频生成?)
  2. 质量要求?(旗舰级推理,还是”够用”的高性价比?)
  3. 延迟要求?(实时对话,还是批处理?)

能力对照表

模型最适合的场景说明
gpt-5.4通用旗舰:复杂推理、长对话、工具调用OpenAI 旗舰,质量与能力均衡
gpt-5.5最高能力上限,要求最佳效果时最新超旗舰,成本高于 gpt-5.4
gpt-5.4-mini高频低延迟:摘要、分类、简单 Q&A成本显著低于旗舰,速度更快
gpt-5.3-codex代码生成、调试、代码审查专为代码场景优化
gemini-3.1-pro-preview谷歌最新旗舰,强推理与多模态支持图片、PDF 输入
gemini-2.5-pro超长文档分析(200 万 token 上下文)最适合整本书/大型代码库级别的输入
gemini-2.5-flash谷歌性价比旗舰,快速多模态兼顾速度与质量,支持视觉输入
gemini-3-flash-preview谷歌新一代轻量模型,极低延迟适合实时交互与高并发场景
deepseek-v4-pro推理型任务、中文场景、技术分析推理能力强,中文理解出色
deepseek-v4-flash低成本推理,中文高频任务deepseek-v4-pro 的轻量版
gpt-image-2高质量图片生成基于 OpenAI 图像模型
nanobanana / nanobanana_2快速图片生成,高性价比轻量图像生成选项
nanobanana_pro高质量图片生成,性价比优于 gpt-image-2nanobanana 系列旗舰
veo_3_1顶级视频生成(Google Veo)目前质量最高的视频模型
doubao-seedance-2-0-260128视频生成,字节跳动 Seedance中文场景视频生成
kling-v2-5-turbo快速视频生成(可灵)快手可灵,生成速度快
当前价格请前往 价格页 查看,价格会定期更新。

延迟、成本与能力的权衡

在旗舰模型(如 gpt-5.5gemini-3.1-pro-previewdeepseek-v4-pro)与轻量模型(如 gpt-5.4-minigemini-2.5-flashdeepseek-v4-flash)之间,核心取舍如下:
  • 首选轻量模型进行原型验证,确认效果后再考虑是否升级。
  • 旗舰模型适合结果直接面向用户、错误代价高,或任务本身需要多步推理的场景。
  • 延迟敏感型应用(如聊天 UI、实时补全)优先选 flash 或 mini 系列。
  • 批量离线任务(数据抽取、文档处理)则可以用旗舰模型换取更高准确率。

评测方法建议

在不同模型上运行相同的金标测试集,而非凭直觉选择:
  1. 收集 20–50 条有代表性的真实输入(覆盖边界情况)。
  2. 定义评估维度(准确率、格式合规性、延迟、每请求成本)。
  3. 对候选模型并行跑测,用相同 system prompt。
  4. 用量化指标比较,而非主观判断。

成本优化技巧

  1. 用最小满足质量的模型——gpt-5.4-minigpt-5.4 质量差距比想象的小,而成本差距显著。
  2. 设置 max_tokens 防止意外生成过长输出。
  3. 精简 system prompt——更短的提示词意味着更少的输入 token,在高频场景下积少成多。
  4. 复用上下文——对话历史只传必要的 turns,不要每次都从头发送全量历史。