Back to Blog
美团LongCat数字人AI开源推理基准

美团 LongCat 双连发:开源商业级数字人生成 + 通用推理基准 General 365

2026-06-078 min read未然

美团 LongCat 双连发:开源商业级数字人生成 + 通用推理基准 General 365

2026 年 6 月 7 日,美团 LongCat 团队在同一天放出两枚重磅炸弹——一个让内容创作者直接能用,一个让整个行业直面差距。

一、LongCat-Video-Avatar 1.5:从「能看」到「商用」

数字人视频生成在 2025-2026 年经历了爆炸式增长,但大部分开源方案始终差一口气:演示视频很惊艳,一上真实场景就崩。

LongCat-Video-Avatar 1.5 的定位很明确——奔着商用去的

核心升级

维度改进实际影响
唇形同步Wav2Vec2 → Whisper-Large中文口型准确率大幅提升
物理合理性全身姿态 + 手势自然度增强不再像「悬浮的头」
长视频稳定性时序一致性优化支持分钟级连续生成
多人互动多角色交互建模访谈、对话场景可用
推理效率模型推理加速单卡 GPU 可跑

谁该关注

如果你在做以下事情,这个开源模型值得亲手试一下:

  • 短视频批量生产:数字人口播替代真人出镜
  • 直播带货数字人:7×24 小时无人直播
  • 在线教育:虚拟讲师自动生成课程视频
  • 跨境电商:多语言数字人本地化内容

从技术博客披露的信息看,v1.5 版本已经解决了之前开源方案中最头痛的「静态演示能打、动态场景翻车」问题。特别是用 Whisper-Large 替换 Wav2Vec2 后,中文语音的口型匹配达到实用水平——这在此前开源方案中是罕见的。

二、General 365:一块戳破泡沫的试金石

如果说 LongCat-Video-Avatar 是给创作者的礼物,那 General 365 就是给全行业的警钟。

数字不说谎

美团 LongCat 团队发布了这个全新的推理能力评测基准,并对 26 款主流大模型进行了评估:

  • 第一名:Gemini 3 Pro — 62.8%
  • 及格线:60%(传统意义上的「及格」)
  • 不及格模型:超过一半

换句话说,当前市面上绝大多数大模型,在面对 General 365 的推理题时,连「及格」都做不到。

这跟其他基准有什么不同?

General 365 的独特之处在于:它不考知识储备,不考语言流畅度,专考推理。这意味着无法靠「记住训练数据中的答案」来刷分。

结果说明了一个残酷的现实:过去两年大模型的进步,更多体现在知识覆盖和语言能力上,真正的逻辑推理能力远没有跟上

对用户的启示

如果你用 AI 做严肃决策类的事情(数据分析、策略规划、代码审查),不要默认相信模型的结果。General 365 的数据表明,即使是当前最强的模型,也有超过三分之一的情况会出错。

三、两件事之间的联系

放在一起看,美团 LongCat 今天的两则消息其实讲的是同一个故事:

AI 正在从「演示经济」走向「实干经济」。

一边是数字人从实验室走向直播间和课堂——需要真能用、不出错、能挣钱。 另一边是推理基准戳破「看起来很聪明」的假象——大家才发现真正的推理还差得远。

对于普通用户,这意味着:

  1. 能直接用的东西越来越多了(数字人就是例子)
  2. 但别被「看起来很聪明」的 Demo 骗了
  3. 持保留意见,亲自测试,永远是最好的策略

资源链接


本文基于美团技术团队 2026 年 6 月 7 日的公开信息撰写,数据来源为官方开源仓库及评测报告。

Found this helpful? Share it with your team.

Read more articles
Share: