> ## Documentation Index > Fetch the complete documentation index at: https://docs.jiekou.ai/llms.txt > Use this file to discover all available pages before exploring further. # ElevenLabs 语音转文本 V1 转录音频或视频文件。当 use\_multi\_channel 为 true 且上传的音频有多个声道时，返回 'transcripts' 对象，每个声道一个转录。否则返回单一转录结果。 ## 请求头枚举值: `application/json` Bearer 身份验证格式: Bearer \{\{API 密钥}}。 ## 请求体如指定，系统会尽力按确定性方式采样，相同 seed 和参数的请求应返回相同结果，但不保证绝对确定性。必须为 0 到 2147483647 之间的整数。取值范围：\[0, 2147483647] 是否标注上传文件中当前说话者。输入音频格式。可选 'pcm\_s16le\_16' 或 'other'。pcm\_s16le\_16 要求音频为 16kHz 采样率、16 位整型、单声道、小端格式，相较于编码波形延迟较低。可选值：`pcm_s16le_16`, `other` 控制转录输出的随机性。取值范围 0.0 ～ 2.0，值越高结果越多样且越不确定。如省略，将使用所选模型的默认温度（通常为0）。取值范围：\[0, 2] 上传文件中讲话者的最大数量。可用于辅助区分说话人，最多支持 32 名讲话者。取值范围：\[1, 32] 指定音频文件的 ISO-639-1 或 ISO-639-3 语言代码。提前指出有时可提升转录表现。默认 null，将自动识别语言。是否在转录中标记如（laughter）（footsteps）等音频事件。待转录文件的 HTTPS 链接。file 和 cloud\_storage\_url 必须二选一。文件须可通过 HTTPS 访问且小于 2GB，支持任何合法 HTTPS 地址，包括云存储（AWS S3、GCS、Cloudflare R2 等）、CDN 或其他 HTTPS 来源，支持带 token 的预签名链接或 URL 查询参数鉴权。音频文件是否为多声道，且每个声道仅包含单一讲话人。启用后将独立转录每个声道并合成结果，输出内容的每个单词包含 channel\_index 字段，最多支持 5 个声道。说话人分离（diarization）阈值。值大时，一个人被分为多人的概率低，但不同人被合并为一人的概率高（识别出的讲话人较少）；值小时，一个人被分成多人的概率提高，但不同人合并为一人的概率降低（讲话人数更多）。仅当 diarize=True 且 num\_speakers=None 时可设。默认 None，会根据模型 id 选择阈值（通常 0.22）。取值范围：\[0.1, 0.4] 转录内容中时间戳的粒度。'word' 提供单词级时间戳，'character' 提供每个字符的时间戳。可选值：`none`, `word`, `character` ## 响应信息响应可能为以下响应类型之一：转录的原始文本。单词及其时间信息列表。该单词或声音在音频中的结束时间（秒）。已转录的单词或声音内容。此单词或声音的类型。'audio\_event' 用于非单词声音，如笑声或脚步声等。可选值：`word`, `spacing`, `audio_event` 该单词或声音在音频中的起始时间（秒）。预测该单词时的概率对数。logprob 范围为 \[-infinity, 0]，值越高表示模型预测越有信心。构成单词的字符及其对应的时间信息。字符在音频中的结束时间（秒）。已转录的字符内容。字符在音频中的起始时间（秒）。该单词对应说话人的唯一标识。该条转录对应的声道索引（多声道音频时有效）。检测到的语言代码（例如 'eng' 表示英语）。该响应的转录唯一 ID。语言检测的置信度（0 到 1 之间）。每个音频声道对应的转录列表。每条转录包含所属声道的文本及单词级别详细信息。转录的原始文本。单词及其时间信息列表。该单词或声音在音频中的结束时间（秒）。已转录的单词或声音内容。此单词或声音的类型。'audio\_event' 用于非单词声音，如笑声或脚步声等。可选值：`word`, `spacing`, `audio_event` 该单词或声音在音频中的起始时间（秒）。预测该单词时的概率对数。logprob 范围为 \[-infinity, 0]，值越高表示模型预测越有信心。构成单词的字符及其对应的时间信息。字符在音频中的结束时间（秒）。已转录的字符内容。字符在音频中的起始时间（秒）。该单词对应说话人的唯一标识。该条转录对应的声道索引（多声道音频时有效）。检测到的语言代码（例如 'eng' 表示英语）。该响应的转录唯一 ID。语言检测的置信度（0 到 1 之间）。该响应的转录唯一 ID。