PPIO 派欧云文档中心 home page
简体中文
搜索...
⌘K
Ask AI
控制台
返回官网
返回官网
搜索...
Navigation
大语言模型API
大语言模型监控
产品公告
模型服务用户指南
模型服务 API 手册
GPU 容器用户指南
GPU 容器 API 手册
Agent 沙箱服务用户指南
账号用户指南
产品介绍
产品简介
模型广场
私有化部署
开始使用
新手指引
在线体验
大语言模型API
大语言模型
视觉语言模型
推理模型
Function Calling
结构化输出
调用频率控制
大语言模型监控
兼容 Anthropic SDK
图像及视频
图像生成模型
图像编辑模型
查找 Stable Diffusion 模型
上传自定义 LoRA 模型
调用频率控制
问题合集
常见问题
常见错误码说明
热门工具接入
教程概览
Claude Code
OpenAI Agents SDK
UI-TARS
FastGPT
OpenManus
Chatbox
Cherry Studio
Cline
Cursor
Dify
AnythingLLM
沉浸式翻译
沉浸式导读
LobeChat
NextChat
ChatHub
RAGFlow
Siri
Microsoft Word
WPS Office AI
流畅阅读
OneAPI
思源笔记
Obsidian
欧路词典
Deep Searcher
Deepchat
LangBot
AstrBot
ChatWise
Apifox
RuoYi AI
n8n
GPT4All
Zotero
在此页面
指标说明
大语言模型API
大语言模型监控
PPIO 派欧云为大语言模型 API 使用提供了全面的监控指标。这些指标让您能够深入了解 LLM API 请求的可用性和性能。
您可以通过
大语言模型(LLM)监控页面
查看监控指标。
指标说明
以下所有指标均按
模型划分维度
,并以
分钟级别
进行采样,但根据您选择的时间间隔,采样点可能不会每分钟都显示。在这种情况下,该时间间隔内的采样点将被平均后显示。
每分钟请求数 (RPM)
显示每分钟发出的 API 请求数量,帮助您了解使用模式和 API 并发级别。
请求成功率
显示每分钟成功 API 响应(非 5xx 状态码)的百分比,反映 API 的可用性。
每个请求的平均 Token 数量
显示每分钟每个请求的平均输入和输出 Token 数量,有助于了解 Token 消耗模式。
端到端(E2E)延迟
显示模型在每分钟请求中生成完整响应所需的总时间。包括 99 分位、95 分位和平均的延迟指标。
生成第一个 Token 的时间 (TTFT)
该指标仅在启用
stream=true
参数的流式请求中进行跟踪。
显示每分钟请求中处理 Prompt 并生成第一个输出 Token 所需的时间。包括 99 分位、95 分位和平均的延迟指标。
每个输出 Token 的时间 (TPOT)
该指标仅在启用
stream=true
参数的流式请求中进行跟踪。
显示每分钟请求中连续输出 token 之间的平均时间。包括 99 分位、95 分位和平均的延迟指标。
调用频率控制
兼容 Anthropic SDK
助手
Responses are generated using AI and may contain mistakes.