跳转到主要内容

多模态输入

支持视觉能力的模型可以在对话中接收图片和 PDF,与文本一起处理。

发送图片(URL)

{
  "model": "gpt-5.4",
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "图片里有什么?"},
        {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}}
      ]
    }
  ]
}

发送图片(本地 base64)

import base64
from openai import OpenAI

client = OpenAI(api_key="YOUR_API_KEY", base_url="https://api.getinfinityblue.com/v1")

with open("cat.jpg", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "图片里有什么?"},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}}
        ]
    }]
)
print(response.choices[0].message.content)

detail 参数

image_url 对象支持 detail 字段,控制图片处理精度:
  • "auto"(默认):由模型根据图片大小自动选择。
  • "low":降采样到 512×512,消耗 token 更少,适合不需要细节的场景。
  • "high":保留高分辨率,消耗 token 更多,适合需要识别文字或细节的图片。
{"type": "image_url", "image_url": {"url": "...", "detail": "high"}}

支持的能力

模型图片PDF
gpt-5.4 / gpt-5.5
gemini-3.1-pro-preview / gemini-2.5-pro
gemini-2.5-flash / gemini-3-flash-preview
本网关当前不提供音频转录或语音输入能力。如需处理音频内容,请先在本地转录为文本后再发送。