如何选择模型

InfinityBlue 聚合了 GPT-5、Gemini、DeepSeek 等主流模型系列。选择模型时，先回答三个问题：

需要什么能力？（通用对话、代码、视觉理解、图片生成、视频生成？）
质量要求？（旗舰级推理，还是”够用”的高性价比？）
延迟要求？（实时对话，还是批处理？）

能力对照表

模型	最适合的场景	说明
`gpt-5.4`	通用旗舰：复杂推理、长对话、工具调用	OpenAI 旗舰，质量与能力均衡
`gpt-5.5`	最高能力上限，要求最佳效果时	最新超旗舰，成本高于 gpt-5.4
`gpt-5.4-mini`	高频低延迟：摘要、分类、简单 Q&A	成本显著低于旗舰，速度更快
`gpt-5.3-codex`	代码生成、调试、代码审查	专为代码场景优化
`gemini-3.1-pro-preview`	谷歌最新旗舰，强推理与多模态	支持图片、PDF 输入
`gemini-2.5-pro`	超长文档分析（200 万 token 上下文）	最适合整本书/大型代码库级别的输入
`gemini-2.5-flash`	谷歌性价比旗舰，快速多模态	兼顾速度与质量，支持视觉输入
`gemini-3-flash-preview`	谷歌新一代轻量模型，极低延迟	适合实时交互与高并发场景
`deepseek-v4-pro`	推理型任务、中文场景、技术分析	推理能力强，中文理解出色
`deepseek-v4-flash`	低成本推理，中文高频任务	deepseek-v4-pro 的轻量版
`gpt-image-2`	高质量图片生成	基于 OpenAI 图像模型
`nanobanana` / `nanobanana_2`	快速图片生成，高性价比	轻量图像生成选项
`nanobanana_pro`	高质量图片生成，性价比优于 gpt-image-2	nanobanana 系列旗舰
`veo_3_1`	顶级视频生成（Google Veo）	目前质量最高的视频模型
`doubao-seedance-2-0-260128`	视频生成，字节跳动 Seedance	中文场景视频生成
`kling-v2-5-turbo`	快速视频生成（可灵）	快手可灵，生成速度快

当前价格请前往价格页查看，价格会定期更新。

延迟、成本与能力的权衡

在旗舰模型（如 gpt-5.5、gemini-3.1-pro-preview、deepseek-v4-pro）与轻量模型（如 gpt-5.4-mini、gemini-2.5-flash、deepseek-v4-flash）之间，核心取舍如下：

首选轻量模型进行原型验证，确认效果后再考虑是否升级。
旗舰模型适合结果直接面向用户、错误代价高，或任务本身需要多步推理的场景。
延迟敏感型应用（如聊天 UI、实时补全）优先选 flash 或 mini 系列。
批量离线任务（数据抽取、文档处理）则可以用旗舰模型换取更高准确率。

评测方法建议

在不同模型上运行相同的金标测试集，而非凭直觉选择：

收集 20–50 条有代表性的真实输入（覆盖边界情况）。
定义评估维度（准确率、格式合规性、延迟、每请求成本）。
对候选模型并行跑测，用相同 system prompt。
用量化指标比较，而非主观判断。

成本优化技巧

用最小满足质量的模型——gpt-5.4-mini 与 gpt-5.4 质量差距比想象的小，而成本差距显著。
设置 max_tokens 防止意外生成过长输出。
精简 system prompt——更短的提示词意味着更少的输入 token，在高频场景下积少成多。
复用上下文——对话历史只传必要的 turns，不要每次都从头发送全量历史。

通用视频 — 查询状态流式响应

⌘I