MiniMax Speech 2.8 HD 同步语音合成

curl --request POST \
  --url https://api.ppio.com/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {
    "audio": "<string>",
    "status": 123,
    "subtitle_file": "<string>"
  },
  "trace_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "extra_info": {
    "bitrate": 123,
    "audio_size": 123,
    "word_count": 123,
    "audio_format": "<string>",
    "audio_length": 123,
    "audio_channel": 123,
    "usage_characters": 123,
    "audio_sample_rate": 123,
    "invisible_character_ratio": 123
  }
}

POST

https://api.ppio.com

minimax-speech-2.8-hd

MiniMax Speech 2.8 HD 同步语音合成

curl --request POST \
  --url https://api.ppio.com/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {
    "audio": "<string>",
    "status": 123,
    "subtitle_file": "<string>"
  },
  "trace_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "extra_info": {
    "bitrate": 123,
    "audio_size": 123,
    "word_count": 123,
    "audio_format": "<string>",
    "audio_length": 123,
    "audio_channel": 123,
    "usage_characters": 123,
    "audio_sample_rate": 123,
    "invisible_character_ratio": 123
  }
}

MiniMax 同步语音合成 API，使用 HTTP 网络通信协议进行同步语音合成。支持多种音色、情绪、语速等参数设置。

请求头

Content-Type

string

必填

枚举值: application/json

Authorization

string

必填

Bearer 身份验证格式，例如：Bearer {{API 密钥}}。

请求体

text

string

必填

需要合成语音的文本，长度限制小于 10000 字符，若文本长度大于 3000 字符，推荐使用流式输出。支持段落切换（换行符）、停顿控制（<#x#>标记）、语气词标签（如(laughs)、(coughs)等，仅 speech-2.8-hd/turbo 支持）

stream

boolean

默认值:false

控制是否流式输出。默认 false，即不开启流式

voice_modify

object

隐藏 properties

pitch

integer

音高调整（低沉/明亮），范围 [-100, 100]，数值接近 -100，声音更低沉；接近 100，声音更明亮取值范围：[-100, 100]

timbre

integer

音色调整（磁性/清脆），范围 [-100, 100]，数值接近 -100，声音更浑厚；数值接近 100，声音更清脆取值范围：[-100, 100]

intensity

integer

强度调整（力量感/柔和），范围 [-100, 100]，数值接近 -100，声音更刚劲；接近 100，声音更轻柔取值范围：[-100, 100]

sound_effects

string

音效设置，单次仅能选择一种，可选值：spacious_echo（空旷回音）、auditorium_echo（礼堂广播）、lofi_telephone（电话失真）、robotic（电音）可选值：spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

隐藏 properties

format

string

默认值:"mp3"

生成音频的格式，wav 仅在非流式输出下支持可选值：mp3, pcm, flac, wav

bitrate

integer

默认值:128000

生成音频的比特率。可选范围 [32000, 64000, 128000, 256000]，默认值为 128000。该参数仅对 mp3 格式的音频生效可选值：32000, 64000, 128000, 256000

channel

integer

默认值:1

生成音频的声道数。可选范围：[1, 2]，其中 1 为单声道，2 为双声道，默认值为 1可选值：1, 2

force_cbr

boolean

默认值:false

对于音频恒定比特率（cbr）控制，可选 false、true。当此参数设置为 true，将以恒定比特率方式进行音频编码。注意：本参数仅当音频设置为流式输出，且音频格式为 mp3 时生效

sample_rate

integer

默认值:32000

生成音频的采样率。可选范围 [8000, 16000, 22050, 24000, 32000, 44100]，默认为 32000可选值：8000, 16000, 22050, 24000, 32000, 44100

output_format

string

默认值:"hex"

控制输出结果形式的参数，可选值范围为 url、hex，默认值为 hex。该参数仅在非流式场景生效，流式场景仅支持返回 hex 形式。返回的 url 有效期为 24 小时可选值：url, hex

voice_setting

object

隐藏 properties

vol

number

默认值:1

合成音频的音量，取值越大，音量越高。取值范围 (0, 10]，默认值为 1.0取值范围：[0, 10]

pitch

integer

默认值:0

合成音频的语调，取值范围 [-12, 12]，默认值为 0，其中 0 为原音色输出取值范围：[-12, 12]

speed

number

默认值:1

合成音频的语速，取值越大，语速越快。取值范围 [0.5, 2]，默认值为 1.0取值范围：[0.5, 2]

emotion

string

控制合成语音的情绪，参数范围分别对应 8 种情绪：高兴(happy)，悲伤(sad)，愤怒(angry)，害怕(fearful)，厌恶(disgusted)，惊讶(surprised)，中性(calm)，生动(fluent)，低语(whisper)。模型会根据输入文本自动匹配合适的情绪，一般无需手动指定可选值：happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

必填

合成音频的音色编号。若需要设置混合音色，请设置 timber_weights 参数，本参数设置为空值。支持系统音色、复刻音色以及文生音色三种类型

latex_read

boolean

默认值:false

控制是否朗读 latex 公式，默认为 false。仅支持中文，开启该参数后，language_boost 参数会被设置为 Chinese

text_normalization

boolean

默认值:false

是否启用中文、英语文本规范化，开启后可提升数字阅读场景的性能，但会略微增加延迟，默认值为 false

aigc_watermark

boolean

默认值:false

控制在合成音频的末尾添加音频节奏标识，默认值为 false。该参数仅对非流式合成生效

language_boost

string

是否增强对指定的小语种和方言的识别能力。默认值为 null，可设置为 auto 让模型自主判断可选值：Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

stream_options

object

隐藏 properties

exclude_aggregated_audio

boolean

默认值:false

设置最后一个 chunk 是否包含拼接后的语音 hex 数据。默认值为 false，即最后一个 chunk 中包含拼接后的完整语音 hex 数据

timber_weights

array

混合音色设置，最多支持 4 种音色混合

隐藏 properties

weight

integer

必填

合成音频各音色所占的权重，须与 voice_id 同步填写。可选值范围为 [1, 100]，最多支持 4 种音色混合，单一音色取值占比越高，合成音色与该音色相似度越高取值范围：[1, 100]

voice_id

string

必填

合成音频的音色编号，须和 weight 参数同步填写。支持系统音色、复刻音色以及文生音色三种类型

subtitle_enable

boolean

默认值:false

控制是否开启字幕服务，默认值为 false。此参数仅在非流式输出场景下有效，且仅对 speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd 模型有效

continuous_sound

boolean

默认值:false

启用该参数，使得子句衔接处更自然，仅支持 speech-2.8-hd 和 speech-2.8-turbo 模型

pronunciation_dict

object

隐藏 properties

tone

array

定义需要特殊标注的文字或符号对应的注音或发音替换规则。在中文文本中，声调用数字表示：一声为 1，二声为 2，三声为 3，四声为 4，轻声为 5。示例：[“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

响应

data

object

返回的合成数据对象，可能为 null，需进行非空判断

隐藏 properties

audio

string

合成后的音频数据，采用 hex 编码，格式与请求中指定的输出格式一致

status

integer

当前音频流状态：1 表示合成中，2 表示合成结束

subtitle_file

string

合成的字幕下载链接。音频文件对应的字幕，精确到句（不超过 50 字），单位为毫秒，格式为 json

trace_id

string

本次会话的 id，用于在咨询/反馈时帮助定位问题

base_resp

object

本次请求的状态码和详情

隐藏 properties

status_msg

string

状态详情

status_code

integer

状态码。0: 请求结果正常, 1000: 未知错误, 1001: 超时, 1002: 触发限流, 1004: 鉴权失败, 1039: 触发 TPM 限流, 1042: 非法字符超过 10%, 2013: 输入参数信息不正常

extra_info

object

音频的附加信息

隐藏 properties

bitrate

integer

音频比特率

audio_size

integer

音频文件大小（字节）

word_count

integer

已发音的字数统计，包含汉字、数字、字母，不包含标点符号

audio_format

string

生成音频文件的格式。取值范围 [mp3, pcm, flac]可选值：mp3, pcm, flac

audio_length

integer

音频时长（毫秒）

audio_channel

integer

生成音频声道数，1：单声道，2：双声道

usage_characters

integer

计费字符数

audio_sample_rate

integer

音频采样率

invisible_character_ratio

number

非法字符占比。非法字符不超过 10%（包含 10%），音频会正常生成，并返回非法字符占比数据；如超过 10% 将进行报错

MiniMax Speech 2.8 Turbo 同步语音合成 MiniMax 音频快速复刻

基础

大语言

图像

视频

音频

联网搜索

任务

MiniMax Speech 2.8 HD 同步语音合成

请求头

请求体

响应

基础

大语言

图像

视频

音频

联网搜索

任务

​请求头

​请求体

​响应

请求头

请求体

响应