image-to-video
gemini-3.1-flash-lite-preview
gemini-3.1-pro-preview
GLM 4.5V
Z.ai's GLM-4.5V sets a new standard in visual reasoning, achieving SOTA performance across 42 benchmarks among open-source models. Beyond benchmarks, it excels in real-world applications through hybrid training, enabling comprehensive visual understanding—from image/video analysis and GUI interaction to complex document processing and precise visual grounding. In China's GeoGuessr challenge, GLM-4.5V surpassed 99% of 21,000 human players within 16 hours, reaching 66th place in a week. Built on the GLM-4.5-Air foundation and inheriting GLM-4.1V-Thinking's approach, it leverages a 106B-parameter MoE architecture for scalable, efficient performance. This model bridges advanced AI research with practical deployment, delivering unmatched visual intelligence
gemini-2.5-flash
Kimi K2.5
Kimi K2.5 is the latest flagship iteration of Moonshot AI's large language model series, representing a significant leap in multimodal and agentic capabilities. It features a native multimodal architecture supporting both visual and text inputs, alongside versatile thinking and non-thinking modes. This model maintains the substantial 256k token context window found in the K2 series but achieves new open-source state-of-the-art (SoTA) performance across general intelligence, coding, and visual understanding benchmarks. Kimi K2.5 delivers a breakthrough in frontend development, enabling the generation of fully functional, aesthetically polished interactive interfaces with complex dynamic layouts directly from natural language. Optimized for complex problem-solving, it excels in multi-step tool invocation, logical reasoning, and full-stack code synthesis.
doubao-seed-1-8-251228
gemini-3-flash-preview
gemini-3-pro-preview
gemini-2.5-flash-lite-preview-09-2025
gemini-2.0-flash-lite
gemini-2.5-flash-lite
gemini-2.5-pro
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-05-20
gemini-2.5-pro-preview-06-05
gemini-2.0-flash-20250609
Qwen2.5 VL 72B Instruct
Qwen2.5-VL, the latest vision-language model in the Qwen2.5 series, delivers enhanced multimodal capabilities including advanced visual comprehension for object/text recognition, chart/layout analysis, and agent-based dynamic tool orchestration. It processes long-form videos (>1 hour) with key event detection while enabling precise spatial annotation through bounding boxes or coordinate points. The model specializes in structured data extraction from scanned documents (invoices, tables, etc.) and achieves state-of-the-art performance across multimodal benchmarks encompassing image understanding, temporal video analysis, and agent task evaluations.
Grok Imagine image to video
Grok Imagine 更偏“强风格与强表达”的图像生成:擅长夸张构图、戏剧化光影、漫画/海报/概念设计等高冲击视觉;对荒诞脑洞、隐喻元素与多重主题融合的画面表现力强,能快速生成具有传播感的封面级图片;同时适合做品牌视觉探索、热点梗图原型与超现实合成风格,追求“第一眼抓人”。支持极速推理 API,性能稳定,无需等待,性价比超高。
Kling v3.0 Pro image to video
Kling 3.0 是面向视频生成的高质量模型,优势在于运动连贯、镜头语言更“像真片”,能较好控制人物动作节奏、运镜(推拉摇移)与场景空间关系;在写实质感、光影变化、细节一致性(人物服装/道具/背景)上更稳,适合做短片、广告分镜与动态概念验证,也能通过清晰的镜头脚本提示提升可控性。支持极速推理 API,性能稳定,无需等待,性价比超高。
Kling v3.0 Standard image to video
Kling 3.0 是面向视频生成的高质量模型,优势在于运动连贯、镜头语言更“像真片”,能较好控制人物动作节奏、运镜(推拉摇移)与场景空间关系;在写实质感、光影变化、细节一致性(人物服装/道具/背景)上更稳,适合做短片、广告分镜与动态概念验证,也能通过清晰的镜头脚本提示提升可控性。支持极速推理 API,性能稳定,无需等待,性价比超高。
Wan 2.1 Image to Video
阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称,适合规模化商用视频生成。Wan 2.1 强化运动稳定与细节质感,适合电商与广告批量生产。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
Vidu Q3 Pro Image-to-Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q3 Pro/系列提升画面质量与镜头可控性,更适合商用短视频。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
Wan 2.2 Image to Video
阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称,适合规模化商用视频生成。Wan 2.2 增强镜头连贯与人物动作自然度,复杂场景更稳。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
Wan 2.5 Image to Video Preview
阿里通义万相 Wan 以高画质、强时序一致性与复杂提示词跟随著称,适合规模化商用视频生成。Wan 2.5 在画面清晰度与提示词跟随上进一步提升,预览版便于快速试错。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Pro Fast Image to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Pro Fast Start-End Frame to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。首尾帧生成用起始/结束画面锁定叙事走向,提升镜头衔接与故事完整度。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Pro Image to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Pro Multi-frame to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。多帧控制可用多张关键帧约束人物与场景一致性,适合连贯剧情与角色保持。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Pro Start-End Frame to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。首尾帧生成用起始/结束画面锁定叙事走向,提升镜头衔接与故事完整度。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Reference Image to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Turbo Image to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Turbo Multi-frame to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。多帧控制可用多张关键帧约束人物与场景一致性,适合连贯剧情与角色保持。即时推理 API,性能稳定,无需等待,价格亲民
VIDU Q2 Turbo Start-End Frame to Video
Vidu 以生成速度快、镜头/关键帧可控见长,强调叙事连贯与可批量迭代。Vidu Q2 强调多种控制范式(模板/首尾帧/多帧),保证叙事衔接。首尾帧生成用起始/结束画面锁定叙事走向,提升镜头衔接与故事完整度。即时推理 API,性能稳定,无需等待,价格亲民
Kling V2.6 Pro Image-to-Video
快手 Kling 系列以运动表现强、镜头控制与编辑能力丰富著称,适合短剧与营销视频。Kling 2.6 Pro 强化运镜与动作控制,适合更复杂的镜头调度。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
Seedance 1.5 Pro Image To Video
Seedance 系列提供稳定的生成能力,适合生产场景。该系列面向生产级调用,强调稳定性与可控输出。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
Veo 3.1 Video Generation (Reverse)
Google Veo 系列主打电影级画面与镜头语言,适合高质量文本视频生成。Veo 3.1 以电影级画面与镜头语言见长,Reverse 模式可生成倒放叙事效果。适合通用内容生成与工具调用,便于集成到你的生产工作流。即时推理 API,性能稳定,无需等待,价格亲民
Wan 2.6 Image To Video
Wan2.6 系列提供稳定的生成能力,适合生产场景。该系列面向生产级调用,强调稳定性与可控输出。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
Kling-o1 Image to Video
快手 Kling 系列以运动表现强、镜头控制与编辑能力丰富著称,适合短剧与营销视频。Kling O1 提供参考生成与编辑能力,利于在原视频上做可控修改。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民
Sora 2 Image to Video
Sora 2 系列提供稳定的生成能力,适合生产场景。该系列面向生产级调用,强调稳定性与可控输出。图生视频支持用一张参考图驱动动作与运镜,适合人物舞蹈、产品展示与风格延展。即时推理 API,性能稳定,无需等待,价格亲民