text-to-video

Pixverse

Pixverse V6 文生视频

使用 Pixverse V6 模型根据文本提示生成视频，支持可配置的分辨率、时长、宽高比以及可选的音频生成。

Alibaba

万相 Wan 2.7参考生视频

万相 Wan 2.7参考生视频模型，支持多模态输入（文本/图像/视频），可将人或物体作为主角，生成单角色表演或多角色互动视频。支持智能分镜，生成多镜头视频。支持720P和1080P分辨率，时长2~10秒，按秒计费。输出默认包含音频。

Pixverse

PixVerse C1 文生视频

PixVerse C1 文生视频模型，支持通过文本描述生成高质量视频，支持多种分辨率和宽高比，可选音频同步生成，视频时长1-15秒。

Google

Veo 3.1 Lite 文本生成视频

使用 Google Veo 3.1 Lite 模型根据文本提示生成视频。支持 4s/6s/8s 时长，720p/1080p 分辨率，16:9 和 9:16 宽高比，可选音频生成。

Kling

Kling v3.0 Pro text to video

Kling 3.0 是面向视频生成的高质量模型，优势在于运动连贯、镜头语言更“像真片”，能较好控制人物动作节奏、运镜（推拉摇移）与场景空间关系；在写实质感、光影变化、细节一致性（人物服装/道具/背景）上更稳，适合做短片、广告分镜与动态概念验证，也能通过清晰的镜头脚本提示提升可控性。支持极速推理 API，性能稳定，无需等待，性价比超高。

Kling

Kling v3.0 Standard text to video

Alibaba

Wan 2.1 Text to Video

阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称，适合规模化商用视频生成。Wan 2.1 强化运动稳定与细节质感，适合电商与广告批量生产。文生视频可直接用提示词生成分镜与镜头语言，适合脚本到成片的快速试制。即时推理 API，性能稳定，无需等待，价格亲民

Alibaba

Wan 2.2 Text to Video

阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称，适合规模化商用视频生成。Wan 2.2 增强镜头连贯与人物动作自然度，复杂场景更稳。文生视频可直接用提示词生成分镜与镜头语言，适合脚本到成片的快速试制。即时推理 API，性能稳定，无需等待，价格亲民

Alibaba

Wan 2.5 Text to Video Preview

阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称，适合规模化商用视频生成。Wan 2.5 在画面清晰度与提示词跟随上进一步提升，预览版便于快速试错。文生视频可直接用提示词生成分镜与镜头语言，适合脚本到成片的快速试制。即时推理 API，性能稳定，无需等待，价格亲民

ByteDance

Seedance 1.5 Pro Text To Video

Seedance 系列提供稳定的生成能力，适合生产场景。该系列面向生产级调用，强调稳定性与可控输出。文生视频可直接用提示词生成分镜与镜头语言，适合脚本到成片的快速试制。即时推理 API，性能稳定，无需等待，价格亲民

Alibaba

Wan 2.6 Text to Video

Wan2.6 系列提供稳定的生成能力，适合生产场景。该系列面向生产级调用，强调稳定性与可控输出。文生视频可直接用提示词生成分镜与镜头语言，适合脚本到成片的快速试制。即时推理 API，性能稳定，无需等待，价格亲民

OpenAI

Sora 2 Text to Video

Sora 2 系列提供稳定的生成能力，适合生产场景。该系列面向生产级调用，强调稳定性与可控输出。文生视频可直接用提示词生成分镜与镜头语言，适合脚本到成片的快速试制。即时推理 API，性能稳定，无需等待，价格亲民