> ## Documentation Index
> Fetch the complete documentation index at: https://docs.jiekou.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# ElevenLabs 语音转文本 V1

转录音频或视频文件。当 use\_multi\_channel 为 true 且上传的音频有多个声道时，返回 'transcripts' 对象，每个声道一个转录。否则返回单一转录结果。

## 请求头

<ParamField header="Content-Type" type="string" required={true}>
  枚举值: `application/json`
</ParamField>

<ParamField header="Authorization" type="string" required={true}>
  Bearer 身份验证格式: Bearer \{\{API 密钥}}。
</ParamField>

## 请求体

<ParamField body="seed" type="integer" nullable={true}>
  如指定，系统会尽力按确定性方式采样，相同 seed 和参数的请求应返回相同结果，但不保证绝对确定性。必须为 0 到 2147483647 之间的整数。

  取值范围：\[0, 2147483647]
</ParamField>

<ParamField body="diarize" type="boolean" default={false}>
  是否标注上传文件中当前说话者。
</ParamField>

<ParamField body="file_format" type="string" default="other">
  输入音频格式。可选 'pcm\_s16le\_16' 或 'other'。pcm\_s16le\_16 要求音频为 16kHz 采样率、16 位整型、单声道、小端格式，相较于编码波形延迟较低。

  可选值：`pcm_s16le_16`, `other`
</ParamField>

<ParamField body="temperature" type="number" nullable={true}>
  控制转录输出的随机性。取值范围 0.0 ～ 2.0，值越高结果越多样且越不确定。如省略，将使用所选模型的默认温度（通常为0）。

  取值范围：\[0, 2]
</ParamField>

<ParamField body="num_speakers" type="integer" nullable={true}>
  上传文件中讲话者的最大数量。可用于辅助区分说话人，最多支持 32 名讲话者。

  取值范围：\[1, 32]
</ParamField>

<ParamField body="language_code" type="string" nullable={true}>
  指定音频文件的 ISO-639-1 或 ISO-639-3 语言代码。提前指出有时可提升转录表现。默认 null，将自动识别语言。
</ParamField>

<ParamField body="tag_audio_events" type="boolean" default={true}>
  是否在转录中标记如（laughter）（footsteps）等音频事件。
</ParamField>

<ParamField body="cloud_storage_url" type="string" required={true} nullable={true}>
  待转录文件的 HTTPS 链接。file 和 cloud\_storage\_url 必须二选一。文件须可通过 HTTPS 访问且小于 2GB，支持任何合法 HTTPS 地址，包括云存储（AWS S3、GCS、Cloudflare R2 等）、CDN 或其他 HTTPS 来源，支持带 token 的预签名链接或 URL 查询参数鉴权。
</ParamField>

<ParamField body="use_multi_channel" type="boolean" default={false}>
  音频文件是否为多声道，且每个声道仅包含单一讲话人。启用后将独立转录每个声道并合成结果，输出内容的每个单词包含 channel\_index 字段，最多支持 5 个声道。
</ParamField>

<ParamField body="diarization_threshold" type="number" nullable={true}>
  说话人分离（diarization）阈值。值大时，一个人被分为多人的概率低，但不同人被合并为一人的概率高（识别出的讲话人较少）；值小时，一个人被分成多人的概率提高，但不同人合并为一人的概率降低（讲话人数更多）。仅当 diarize=True 且 num\_speakers=None 时可设。默认 None，会根据模型 id 选择阈值（通常 0.22）。

  取值范围：\[0.1, 0.4]
</ParamField>

<ParamField body="timestamps_granularity" type="string" default="word">
  转录内容中时间戳的粒度。'word' 提供单词级时间戳，'character' 提供每个字符的时间戳。

  可选值：`none`, `word`, `character`
</ParamField>

## 响应信息

<Note>
  响应可能为以下响应类型之一：
</Note>

<Accordion title="响应类型 1">
  <ResponseField name="text" type="string" required={true}>
    转录的原始文本。
  </ResponseField>

  <ResponseField name="words" type="object[]" required={true}>
    单词及其时间信息列表。

    <Expandable title="properties" defaultOpen={true}>
      <ResponseField name="end" type="number" required={false}>
        该单词或声音在音频中的结束时间（秒）。
      </ResponseField>

      <ResponseField name="text" type="string" required={true}>
        已转录的单词或声音内容。
      </ResponseField>

      <ResponseField name="type" type="string" required={true}>
        此单词或声音的类型。'audio\_event' 用于非单词声音，如笑声或脚步声等。

        可选值：`word`, `spacing`, `audio_event`
      </ResponseField>

      <ResponseField name="start" type="number" required={false}>
        该单词或声音在音频中的起始时间（秒）。
      </ResponseField>

      <ResponseField name="logprob" type="number" required={true}>
        预测该单词时的概率对数。logprob 范围为 \[-infinity, 0]，值越高表示模型预测越有信心。
      </ResponseField>

      <ResponseField name="characters" type="object[]" required={false}>
        构成单词的字符及其对应的时间信息。

        <Expandable title="properties" defaultOpen={true}>
          <ResponseField name="end" type="number" required={false}>
            字符在音频中的结束时间（秒）。
          </ResponseField>

          <ResponseField name="text" type="string" required={true}>
            已转录的字符内容。
          </ResponseField>

          <ResponseField name="start" type="number" required={false}>
            字符在音频中的起始时间（秒）。
          </ResponseField>
        </Expandable>
      </ResponseField>

      <ResponseField name="speaker_id" type="string" required={false}>
        该单词对应说话人的唯一标识。
      </ResponseField>
    </Expandable>
  </ResponseField>

  <ResponseField name="channel_index" type="integer" required={false}>
    该条转录对应的声道索引（多声道音频时有效）。
  </ResponseField>

  <ResponseField name="language_code" type="string" required={true}>
    检测到的语言代码（例如 'eng' 表示英语）。
  </ResponseField>

  <ResponseField name="transcription_id" type="string" required={false}>
    该响应的转录唯一 ID。
  </ResponseField>

  <ResponseField name="language_probability" type="number" required={true}>
    语言检测的置信度（0 到 1 之间）。
  </ResponseField>
</Accordion>

<Accordion title="响应类型 2">
  <ResponseField name="transcripts" type="object[]" required={true}>
    每个音频声道对应的转录列表。每条转录包含所属声道的文本及单词级别详细信息。

    <Expandable title="properties" defaultOpen={true}>
      <ResponseField name="text" type="string" required={true}>
        转录的原始文本。
      </ResponseField>

      <ResponseField name="words" type="object[]" required={true}>
        单词及其时间信息列表。

        <Expandable title="properties" defaultOpen={true}>
          <ResponseField name="end" type="number" required={false}>
            该单词或声音在音频中的结束时间（秒）。
          </ResponseField>

          <ResponseField name="text" type="string" required={true}>
            已转录的单词或声音内容。
          </ResponseField>

          <ResponseField name="type" type="string" required={true}>
            此单词或声音的类型。'audio\_event' 用于非单词声音，如笑声或脚步声等。

            可选值：`word`, `spacing`, `audio_event`
          </ResponseField>

          <ResponseField name="start" type="number" required={false}>
            该单词或声音在音频中的起始时间（秒）。
          </ResponseField>

          <ResponseField name="logprob" type="number" required={true}>
            预测该单词时的概率对数。logprob 范围为 \[-infinity, 0]，值越高表示模型预测越有信心。
          </ResponseField>

          <ResponseField name="characters" type="object[]" required={false}>
            构成单词的字符及其对应的时间信息。

            <Expandable title="properties" defaultOpen={true}>
              <ResponseField name="end" type="number" required={false}>
                字符在音频中的结束时间（秒）。
              </ResponseField>

              <ResponseField name="text" type="string" required={true}>
                已转录的字符内容。
              </ResponseField>

              <ResponseField name="start" type="number" required={false}>
                字符在音频中的起始时间（秒）。
              </ResponseField>
            </Expandable>
          </ResponseField>

          <ResponseField name="speaker_id" type="string" required={false}>
            该单词对应说话人的唯一标识。
          </ResponseField>
        </Expandable>
      </ResponseField>

      <ResponseField name="channel_index" type="integer" required={false}>
        该条转录对应的声道索引（多声道音频时有效）。
      </ResponseField>

      <ResponseField name="language_code" type="string" required={true}>
        检测到的语言代码（例如 'eng' 表示英语）。
      </ResponseField>

      <ResponseField name="transcription_id" type="string" required={false}>
        该响应的转录唯一 ID。
      </ResponseField>

      <ResponseField name="language_probability" type="number" required={true}>
        语言检测的置信度（0 到 1 之间）。
      </ResponseField>
    </Expandable>
  </ResponseField>

  <ResponseField name="transcription_id" type="string" required={false}>
    该响应的转录唯一 ID。
  </ResponseField>
</Accordion>
