多模态输入

支持视觉能力的模型可以在对话中接收图片和 PDF，与文本一起处理。

发送图片（URL）

{
  "model": "gpt-5.4",
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "图片里有什么？"},
        {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}}
      ]
    }
  ]
}

发送图片（本地 base64）

import base64
from openai import OpenAI

client = OpenAI(api_key="YOUR_API_KEY", base_url="https://api.getinfinityblue.com/v1")

with open("cat.jpg", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "图片里有什么？"},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}}
        ]
    }]
)
print(response.choices[0].message.content)

`detail` 参数

image_url 对象支持 detail 字段，控制图片处理精度：

"auto"（默认）：由模型根据图片大小自动选择。
"low"：降采样到 512×512，消耗 token 更少，适合不需要细节的场景。
"high"：保留高分辨率，消耗 token 更多，适合需要识别文字或细节的图片。

{"type": "image_url", "image_url": {"url": "...", "detail": "high"}}

支持的能力

模型	图片	PDF
`gpt-5.4` / `gpt-5.5`	✅	✅
`gemini-3.1-pro-preview` / `gemini-2.5-pro`	✅	✅
`gemini-2.5-flash` / `gemini-3-flash-preview`	✅	✅

本网关当前不提供音频转录或语音输入能力。如需处理音频内容，请先在本地转录为文本后再发送。

​多模态输入

​发送图片（URL）

​发送图片（本地 base64）

​detail 参数

​支持的能力

多模态输入

发送图片（URL）

发送图片（本地 base64）

`detail` 参数

支持的能力