text-to-video
gemini-3.1-flash-lite-preview
gemini-3.1-pro-preview
GLM 4.5V
Z.ai's GLM-4.5V sets a new standard in visual reasoning, achieving SOTA performance across 42 benchmarks among open-source models. Beyond benchmarks, it excels in real-world applications through hybrid training, enabling comprehensive visual understanding—from image/video analysis and GUI interaction to complex document processing and precise visual grounding. In China's GeoGuessr challenge, GLM-4.5V surpassed 99% of 21,000 human players within 16 hours, reaching 66th place in a week. Built on the GLM-4.5-Air foundation and inheriting GLM-4.1V-Thinking's approach, it leverages a 106B-parameter MoE architecture for scalable, efficient performance. This model bridges advanced AI research with practical deployment, delivering unmatched visual intelligence
gemini-2.5-flash
Kimi K2.5
Kimi K2.5 is the latest flagship iteration of Moonshot AI's large language model series, representing a significant leap in multimodal and agentic capabilities. It features a native multimodal architecture supporting both visual and text inputs, alongside versatile thinking and non-thinking modes. This model maintains the substantial 256k token context window found in the K2 series but achieves new open-source state-of-the-art (SoTA) performance across general intelligence, coding, and visual understanding benchmarks. Kimi K2.5 delivers a breakthrough in frontend development, enabling the generation of fully functional, aesthetically polished interactive interfaces with complex dynamic layouts directly from natural language. Optimized for complex problem-solving, it excels in multi-step tool invocation, logical reasoning, and full-stack code synthesis.
doubao-seed-1-8-251228
gemini-3-flash-preview
gemini-3-pro-preview
gemini-2.5-flash-lite-preview-09-2025
gemini-2.0-flash-lite
gemini-2.5-flash-lite
gemini-2.5-pro
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-05-20
gemini-2.5-pro-preview-06-05
gemini-2.0-flash-20250609
Qwen2.5 VL 72B Instruct
Qwen2.5-VL, the latest vision-language model in the Qwen2.5 series, delivers enhanced multimodal capabilities including advanced visual comprehension for object/text recognition, chart/layout analysis, and agent-based dynamic tool orchestration. It processes long-form videos (>1 hour) with key event detection while enabling precise spatial annotation through bounding boxes or coordinate points. The model specializes in structured data extraction from scanned documents (invoices, tables, etc.) and achieves state-of-the-art performance across multimodal benchmarks encompassing image understanding, temporal video analysis, and agent task evaluations.
Grok Imagine text to video
Grok Imagine 更偏“强风格与强表达”的图像生成:擅长夸张构图、戏剧化光影、漫画/海报/概念设计等高冲击视觉;对荒诞脑洞、隐喻元素与多重主题融合的画面表现力强,能快速生成具有传播感的封面级图片;同时适合做品牌视觉探索、热点梗图原型与超现实合成风格,追求“第一眼抓人”。支持极速推理 API,性能稳定,无需等待,性价比超高。
Kling v3.0 Pro text to video
Kling 3.0 是面向视频生成的高质量模型,优势在于运动连贯、镜头语言更“像真片”,能较好控制人物动作节奏、运镜(推拉摇移)与场景空间关系;在写实质感、光影变化、细节一致性(人物服装/道具/背景)上更稳,适合做短片、广告分镜与动态概念验证,也能通过清晰的镜头脚本提示提升可控性。支持极速推理 API,性能稳定,无需等待,性价比超高。
Kling v3.0 Standard text to video
Kling 3.0 是面向视频生成的高质量模型,优势在于运动连贯、镜头语言更“像真片”,能较好控制人物动作节奏、运镜(推拉摇移)与场景空间关系;在写实质感、光影变化、细节一致性(人物服装/道具/背景)上更稳,适合做短片、广告分镜与动态概念验证,也能通过清晰的镜头脚本提示提升可控性。支持极速推理 API,性能稳定,无需等待,性价比超高。
Wan 2.1 Text to Video
阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称,适合规模化商用视频生成。Wan 2.1 强化运动稳定与细节质感,适合电商与广告批量生产。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
Vidu Q3 Pro Text-to-Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q3 Pro/系列提升画面质量与镜头可控性,更适合商用短视频。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
Wan 2.2 Text to Video
阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称,适合规模化商用视频生成。Wan 2.2 增强镜头连贯与人物动作自然度,复杂场景更稳。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
Wan 2.5 Text to Video Preview
阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称,适合规模化商用视频生成。Wan 2.5 在画面清晰度与提示词跟随上进一步提升,预览版便于快速试错。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Template to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。模板生视频可用预设模板快速套用风格与节奏,适合批量营销素材生成。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Text to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
Kling V2.6 Pro Text-to-Video
快手 Kling 系列以运动表现强、镜头控制与编辑能力丰富著称,适合短剧与营销视频。Kling 2.6 Pro 强化运镜与动作控制,适合更复杂的镜头调度。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
Seedance 1.5 Pro Text To Video
Seedance 系列提供稳定的生成能力,适合生产场景。该系列面向生产级调用,强调稳定性与可控输出。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
Veo 3.1 Video Generation (Reverse)
Google Veo 系列主打电影级画面与镜头语言,适合高质量文本视频生成。Veo 3.1 以电影级画面与镜头语言见长,Reverse 模式可生成倒放叙事效果。适合通用内容生成与工具调用,便于集成到你的生产工作流。即时推理 API,性能稳定,无需等待,价格亲民
Wan 2.6 Text to Video
Wan2.6 系列提供稳定的生成能力,适合生产场景。该系列面向生产级调用,强调稳定性与可控输出。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
Kling-o1 Text to Video
快手 Kling 系列以运动表现强、镜头控制与编辑能力丰富著称,适合短剧与营销视频。Kling O1 提供参考生成与编辑能力,利于在原视频上做可控修改。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民
Sora 2 Text to Video
Sora 2 系列提供稳定的生成能力,适合生产场景。该系列面向生产级调用,强调稳定性与可控输出。文生视频可直接用提示词生成分镜与镜头语言,适合脚本到成片的快速试制。即时推理 API,性能稳定,无需等待,价格亲民