HappyHorse 1.0 —— 原生音频视频模型正式上线
HappyHorse 1.0
原生音频视频生成
阿里巴巴 ATH-AI 团队正式发布了 HappyHorse 1.0,一个统一多模态视频生成模型。单次前向传播即可同步生成 1080p 视频与原生音频,支持 7 种语言的对口型。在 Artificial Analysis 全球盲评竞技场中,HappyHorse 1.0 以文生视频 1333 Elo、图生视频 1392 Elo 的成绩双榜排名第一。
HappyHorse 1.0 为何与众不同
首个原生协同生成画面与音频的视频模型。
统一多模态 Transformer
采用单流 Transformer 架构,将文本、图像、视频、音频 token 放在同一表示空间,跳过传统的「视频 → 音频 → 对口型」流水线。
原生音频生成
将对白、环境音、音效与画面一同生成,无需额外 TTS 或后期合成,音画完美同步、开箱即用。
7 语言对口型
支持英语、普通话、粤语、日语、韩语、德语、法语,依据语种实现亚像素级口型对齐,专为全球化对白内容打造。
Artificial Analysis 双榜第一
截至 2026 年 4 月,在 Artificial Analysis 全球盲评竞技场中文生视频(1333 Elo)与图生视频(1392 Elo)均排名第一。
8 步 DMD-2 采样
蒸馏到约 8 步去噪、无需 classifier-free guidance —— 单张 H100 GPU 约 38 秒可生成一段 1080p 视频。
原生 1080p 输出
无需放大即可输出广播级 1080p 视频,多镜头之间的物理一致性与时序连贯性表现出色。
竖屏与对白场景优化
针对竖屏、对白密集型内容做了专门优化,非常适合抖音、TikTok、Reels、Shorts 等短视频平台。
Sandwich 三明治架构
采用共享自注意力核心的「三明治」结构高效融合多模态,约 150 亿参数,针对 H100 集群做了硬件感知优化。
典型应用场景
受益于原生音画协同生成的生产级场景。
多语种广告创意
一次生成广告创意,覆盖 7 种语言的对口型版本 —— 不再需要单独的配音流水线,大幅缩短全球营销上线周期。
竖屏短视频规模化生产
原生支持竖屏与对白优先生成,非常适合抖音、TikTok、Reels、Shorts 等短视频平台的真实口语化内容。
口播与代言人视频
生成代言人、产品讲解、培训类视频,语音、口型、手势保持完美同步,告别尴尬的对不上嘴。
分镜与预可视化
可生成带临时对白与环境音的多镜头预演,适用于影视、动画、游戏 CG 的早期分镜与方案验证。
本地化在线教育
同一节课程可输出多语种对口型版本,成本远低于重拍或人工配音,加速课程国际化。
出海品牌内容
出海品牌可在每个区域无需单独建立制作团队,即可快速产出本地化的视频创意素材。
定价
HappyHorse 1.0 支持 720P 和 1080P 分辨率,提供标准版和编辑版两种模式。按秒按量付费,无隐藏费用。详见 定价页面。