Q
qwen/qwen3-vl-8b-instruct
qwen/qwen3-vl-8b-instruct

Qwen3-VL-8B-Instruct 是 Qwen3-VL 系列中的一款多模态视觉语言模型,专为高保真度的文本、图像和视频理解与推理而打造。 该模型采用增强的多模态融合技术,包括: - Interleaved-MRoPE:用于长时间序列的时间推理; - DeepStack:实现精细级别的视觉—文本对齐; - 文本-时间戳对齐机制:用于精准的事件定位。 模型原生支持 256K Token 上下文窗口,并可扩展至 100万 Token,能够同时处理静态与动态媒体输入,适用于文档解析、视觉问答、空间推理以及 GUI 控制等任务。 其文本理解能力可与领先的大语言模型相媲美,同时扩展了 32种语言的OCR识别能力,并在多样化视觉条件下具备更强的鲁棒性与稳定性。

模型价格立即体验模型

输入0.5/Mt
输出2/Mt

示例代码

一键复制
1base_url="https://api.ppinfra.com/openai"
2api_key="<您的 API Key>"
3
4curl "$base_url/v1/chat/completions" \
5  -H "Content-Type: application/json" \
6  -H "Authorization: Bearer $api_key" \
7  -d @- << 'EOF'
8{
9    "model": "qwen/qwen3-vl-8b-instruct",
10    "messages": [
11        
12        {
13            "role": "user",
14            "content": "Hi there!"
15        }
16    ],
17    "response_format": { "type": "text" }
18}
19EOF
20  

模型信息

上下文窗口:

131072

最大输出 token 数:

32768

模态:

输入:
TextImageVideo
输出:
Text

支持的功能

Function Calling支持
结构化输出支持
reasoning不支持
Anthropic API不支持

API 接入指南

Base URL:

https://api.ppinfra.com/openai

API Endpoints:

/v1/chat/completions

Model ID:

qwen/qwen3-vl-8b-instruct

用量级别RPMTPM
T13050,000,000
T23050,000,000
T33050,000,000
T43,00050,000,000
T53050,000,000
用更高性价比的产品服务
助您释放无限创新元力,引领智能时代新进程
马上咨询