美团 LongCat 双连发:开源商业级数字人生成 + 通用推理基准 General 365
美团 LongCat 双连发:开源商业级数字人生成 + 通用推理基准 General 365
2026 年 6 月 7 日,美团 LongCat 团队在同一天放出两枚重磅炸弹——一个让内容创作者直接能用,一个让整个行业直面差距。
一、LongCat-Video-Avatar 1.5:从「能看」到「商用」
数字人视频生成在 2025-2026 年经历了爆炸式增长,但大部分开源方案始终差一口气:演示视频很惊艳,一上真实场景就崩。
LongCat-Video-Avatar 1.5 的定位很明确——奔着商用去的。
核心升级
| 维度 | 改进 | 实际影响 |
|---|---|---|
| 唇形同步 | Wav2Vec2 → Whisper-Large | 中文口型准确率大幅提升 |
| 物理合理性 | 全身姿态 + 手势自然度增强 | 不再像「悬浮的头」 |
| 长视频稳定性 | 时序一致性优化 | 支持分钟级连续生成 |
| 多人互动 | 多角色交互建模 | 访谈、对话场景可用 |
| 推理效率 | 模型推理加速 | 单卡 GPU 可跑 |
谁该关注
如果你在做以下事情,这个开源模型值得亲手试一下:
- 短视频批量生产:数字人口播替代真人出镜
- 直播带货数字人:7×24 小时无人直播
- 在线教育:虚拟讲师自动生成课程视频
- 跨境电商:多语言数字人本地化内容
从技术博客披露的信息看,v1.5 版本已经解决了之前开源方案中最头痛的「静态演示能打、动态场景翻车」问题。特别是用 Whisper-Large 替换 Wav2Vec2 后,中文语音的口型匹配达到实用水平——这在此前开源方案中是罕见的。
二、General 365:一块戳破泡沫的试金石
如果说 LongCat-Video-Avatar 是给创作者的礼物,那 General 365 就是给全行业的警钟。
数字不说谎
美团 LongCat 团队发布了这个全新的推理能力评测基准,并对 26 款主流大模型进行了评估:
- 第一名:Gemini 3 Pro — 62.8%
- 及格线:60%(传统意义上的「及格」)
- 不及格模型:超过一半
换句话说,当前市面上绝大多数大模型,在面对 General 365 的推理题时,连「及格」都做不到。
这跟其他基准有什么不同?
General 365 的独特之处在于:它不考知识储备,不考语言流畅度,专考推理。这意味着无法靠「记住训练数据中的答案」来刷分。
结果说明了一个残酷的现实:过去两年大模型的进步,更多体现在知识覆盖和语言能力上,真正的逻辑推理能力远没有跟上。
对用户的启示
如果你用 AI 做严肃决策类的事情(数据分析、策略规划、代码审查),不要默认相信模型的结果。General 365 的数据表明,即使是当前最强的模型,也有超过三分之一的情况会出错。
三、两件事之间的联系
放在一起看,美团 LongCat 今天的两则消息其实讲的是同一个故事:
AI 正在从「演示经济」走向「实干经济」。
一边是数字人从实验室走向直播间和课堂——需要真能用、不出错、能挣钱。 另一边是推理基准戳破「看起来很聪明」的假象——大家才发现真正的推理还差得远。
对于普通用户,这意味着:
- 能直接用的东西越来越多了(数字人就是例子)
- 但别被「看起来很聪明」的 Demo 骗了
- 持保留意见,亲自测试,永远是最好的策略
资源链接
本文基于美团技术团队 2026 年 6 月 7 日的公开信息撰写,数据来源为官方开源仓库及评测报告。
Related AI Tools
LongCat-Video-Avatar
美团开源的商业级数字人视频生成模型,支持唇形同步、长视频稳定和多人互动。v1.5 使用 Whisper-Large 提升口型准确度。
Free (Open Source)Kling AI
快手旗下可灵 AI 视频生成平台,以高度自然的运动真实感和高清画质著称,支持文生视频、图生视频、视频延长等多种创作模式,是国产 AI 视频的标杆产品。
FreemiumRunway Gen-3
Runway 最新 AI 视频生成模型,高质量文生视频和视频风格转换。支持电影级输出。
FreemiumVeo 3
Google DeepMind 的 AI 视频生成模型,擅长长视频生成和角色一致性。支持视频扩展。
FreemiumSora
OpenAI 的 AI 视频生成模型,以物理真实感闻名。能理解物体交互和场景物理规律。
FreemiumFound this helpful? Share it with your team.
Read more articles →