新模型Artificial Analysis 双榜第一

HappyHorse 1.0 —— 原生音频视频模型正式上线

2026 年 4 月 30 日

约 6 分钟

新模型

HappyHorse 1.0

原生音频视频生成

1080p原生音频7 种语言双榜第一

阿里巴巴 ATH-AI 团队正式发布了 HappyHorse 1.0，一个统一多模态视频生成模型。单次前向传播即可同步生成 1080p 视频与原生音频，支持 7 种语言的对口型。在 Artificial Analysis 全球盲评竞技场中，HappyHorse 1.0 以文生视频 1333 Elo、图生视频 1392 Elo 的成绩双榜排名第一。

HappyHorse 1.0 为何与众不同

首个原生协同生成画面与音频的视频模型。

统一多模态 Transformer

采用单流 Transformer 架构，将文本、图像、视频、音频 token 放在同一表示空间，跳过传统的「视频 → 音频 → 对口型」流水线。

原生音频生成

将对白、环境音、音效与画面一同生成，无需额外 TTS 或后期合成，音画完美同步、开箱即用。

7 语言对口型

支持英语、普通话、粤语、日语、韩语、德语、法语，依据语种实现亚像素级口型对齐，专为全球化对白内容打造。

Artificial Analysis 双榜第一

截至 2026 年 4 月，在 Artificial Analysis 全球盲评竞技场中文生视频（1333 Elo）与图生视频（1392 Elo）均排名第一。

8 步 DMD-2 采样

蒸馏到约 8 步去噪、无需 classifier-free guidance —— 单张 H100 GPU 约 38 秒可生成一段 1080p 视频。

原生 1080p 输出

无需放大即可输出广播级 1080p 视频，多镜头之间的物理一致性与时序连贯性表现出色。

竖屏与对白场景优化

针对竖屏、对白密集型内容做了专门优化，非常适合抖音、TikTok、Reels、Shorts 等短视频平台。

Sandwich 三明治架构

采用共享自注意力核心的「三明治」结构高效融合多模态，约 150 亿参数，针对 H100 集群做了硬件感知优化。

典型应用场景

受益于原生音画协同生成的生产级场景。

多语种广告创意

一次生成广告创意，覆盖 7 种语言的对口型版本 —— 不再需要单独的配音流水线，大幅缩短全球营销上线周期。

竖屏短视频规模化生产

原生支持竖屏与对白优先生成，非常适合抖音、TikTok、Reels、Shorts 等短视频平台的真实口语化内容。

口播与代言人视频

生成代言人、产品讲解、培训类视频，语音、口型、手势保持完美同步，告别尴尬的对不上嘴。

分镜与预可视化

可生成带临时对白与环境音的多镜头预演，适用于影视、动画、游戏 CG 的早期分镜与方案验证。

本地化在线教育

同一节课程可输出多语种对口型版本，成本远低于重拍或人工配音，加速课程国际化。

出海品牌内容

出海品牌可在每个区域无需单独建立制作团队，即可快速产出本地化的视频创意素材。

定价

HappyHorse 1.0 支持 720P 和 1080P 分辨率，提供标准版和编辑版两种模式。按秒按量付费，无隐藏费用。详见定价页面。

Artificial Analysis 排名

支持语言数

~38s

生成时间 (H100)

1080p

原生分辨率

在 corevideo 体验 HappyHorse 1.0

一键体验原生音频视频生成。注册即可获得免费积分，立即开始创作。

立即开始创作查看定价

HappyHorse 是阿里巴巴集团的商标。本文仅供信息参考。corevideo 是独立的第三方服务，与阿里巴巴没有关联、不受其认可或与其有联系。

HappyHorse 1.0 —— 原生音频视频模型正式上线 | corevideo | CoreVideo | 爱酷影