返回新闻动态
新模型Artificial Analysis 双榜第一

HappyHorse 1.0 —— 原生音频视频模型正式上线

约 6 分钟
新模型

HappyHorse 1.0

原生音频视频生成

1080p原生音频7 种语言双榜第一

阿里巴巴 ATH-AI 团队正式发布了 HappyHorse 1.0,一个统一多模态视频生成模型。单次前向传播即可同步生成 1080p 视频原生音频,支持 7 种语言的对口型。在 Artificial Analysis 全球盲评竞技场中,HappyHorse 1.0 以文生视频 1333 Elo、图生视频 1392 Elo 的成绩双榜排名第一

HappyHorse 1.0 为何与众不同

首个原生协同生成画面与音频的视频模型。

统一多模态 Transformer

采用单流 Transformer 架构,将文本、图像、视频、音频 token 放在同一表示空间,跳过传统的「视频 → 音频 → 对口型」流水线。

原生音频生成

将对白、环境音、音效与画面一同生成,无需额外 TTS 或后期合成,音画完美同步、开箱即用。

7 语言对口型

支持英语、普通话、粤语、日语、韩语、德语、法语,依据语种实现亚像素级口型对齐,专为全球化对白内容打造。

Artificial Analysis 双榜第一

截至 2026 年 4 月,在 Artificial Analysis 全球盲评竞技场中文生视频(1333 Elo)与图生视频(1392 Elo)均排名第一。

8 步 DMD-2 采样

蒸馏到约 8 步去噪、无需 classifier-free guidance —— 单张 H100 GPU 约 38 秒可生成一段 1080p 视频。

原生 1080p 输出

无需放大即可输出广播级 1080p 视频,多镜头之间的物理一致性与时序连贯性表现出色。

竖屏与对白场景优化

针对竖屏、对白密集型内容做了专门优化,非常适合抖音、TikTok、Reels、Shorts 等短视频平台。

Sandwich 三明治架构

采用共享自注意力核心的「三明治」结构高效融合多模态,约 150 亿参数,针对 H100 集群做了硬件感知优化。

典型应用场景

受益于原生音画协同生成的生产级场景。

多语种广告创意

一次生成广告创意,覆盖 7 种语言的对口型版本 —— 不再需要单独的配音流水线,大幅缩短全球营销上线周期。

竖屏短视频规模化生产

原生支持竖屏与对白优先生成,非常适合抖音、TikTok、Reels、Shorts 等短视频平台的真实口语化内容。

口播与代言人视频

生成代言人、产品讲解、培训类视频,语音、口型、手势保持完美同步,告别尴尬的对不上嘴。

分镜与预可视化

可生成带临时对白与环境音的多镜头预演,适用于影视、动画、游戏 CG 的早期分镜与方案验证。

本地化在线教育

同一节课程可输出多语种对口型版本,成本远低于重拍或人工配音,加速课程国际化。

出海品牌内容

出海品牌可在每个区域无需单独建立制作团队,即可快速产出本地化的视频创意素材。

定价

HappyHorse 1.0 支持 720P 和 1080P 分辨率,提供标准版和编辑版两种模式。按秒按量付费,无隐藏费用。详见 定价页面

#1
Artificial Analysis 排名
7
支持语言数
~38s
生成时间 (H100)
1080p
原生分辨率

在 corevideo 体验 HappyHorse 1.0

一键体验原生音频视频生成。注册即可获得免费积分,立即开始创作。

HappyHorse 是阿里巴巴集团的商标。本文仅供信息参考。corevideo 是独立的第三方服务,与阿里巴巴没有关联、不受其认可或与其有联系。
HappyHorse 1.0 —— 原生音频视频模型正式上线 | corevideo | CoreVideo | 爱酷影