- LongCat-Video-Avatar 1.5 GitHub] - LongCat-Video-Avatar 1.5 HuggingFace] - LongCat 官方模型站] - General 365 基准详情] --- *本文基于美团技术团队 2026 年 6 月 7 日的公开信息撰写，数据来源为官方开源仓库及评测报告。*

美团 LongCat 双连发：开源商业级数字人生成 + 通用推理基准 General 365

Q: 二、General 365：一块戳破泡沫的试金石

如果说 LongCat-Video-Avatar 是给创作者的礼物，那 General 365 就是给全行业的警钟。 美团 LongCat 团队发布了这个全新的推理能力评测基准，并对 26 款主流大模型进行了评估： - 第一名：Gemini 3 Pro — 62.8% - 及格线：60%（传统意义上的「及格」） - 不及格模型：超过一半 > 换句话说，当前市面上绝大多数大模型，在面对 General 365 的推理题时，连「及格」都做不到。 General 365 的独特之处在于：它不考知识储备，不考语言流畅度，专考推理。这意味着无法靠「记住训练数据中的答案」来刷分。 结果说明了一个残酷的现实：过去两年大模型的进步，更多体现在知识覆盖和语言能力上，真正的逻辑推理能力远没有跟上。 如果你用 AI 做严肃决策类的事情（数据分析、策略规划、代码审查），不要默认相信模型的结果。General 365 的数据表明，即使是当前最强的模型，也有超过三分之一的情况会出错。

Q: 三、两件事之间的联系

放在一起看，美团 LongCat 今天的两则消息其实讲的是同一个故事： > AI 正在从「演示经济」走向「实干经济」。 一边是数字人从实验室走向直播间和课堂——需要真能用、不出错、能挣钱。 另一边是推理基准戳破「看起来很聪明」的假象——大家才发现真正的推理还差得远。 对于普通用户，这意味着： 1. 能直接用的东西越来越多了（数字人就是例子） 2. 但别被「看起来很聪明」的 Demo 骗了 3. 持保留意见，亲自测试，永远是最好的策略

2026 年 6 月 7 日，美团 LongCat 团队在同一天放出两枚重磅炸弹——一个让内容创作者直接能用，一个让整个行业直面差距。

一、LongCat-Video-Avatar 1.5：从「能看」到「商用」

数字人视频生成在 2025-2026 年经历了爆炸式增长，但大部分开源方案始终差一口气：演示视频很惊艳，一上真实场景就崩。

LongCat-Video-Avatar 1.5 的定位很明确——奔着商用去的。

核心升级

维度	改进	实际影响
唇形同步	Wav2Vec2 → Whisper-Large	中文口型准确率大幅提升
物理合理性	全身姿态 + 手势自然度增强	不再像「悬浮的头」
长视频稳定性	时序一致性优化	支持分钟级连续生成
多人互动	多角色交互建模	访谈、对话场景可用
推理效率	模型推理加速	单卡 GPU 可跑

谁该关注

如果你在做以下事情，这个开源模型值得亲手试一下：

短视频批量生产：数字人口播替代真人出镜
直播带货数字人：7×24 小时无人直播
在线教育：虚拟讲师自动生成课程视频
跨境电商：多语言数字人本地化内容

从技术博客披露的信息看，v1.5 版本已经解决了之前开源方案中最头痛的「静态演示能打、动态场景翻车」问题。特别是用 Whisper-Large 替换 Wav2Vec2 后，中文语音的口型匹配达到实用水平——这在此前开源方案中是罕见的。

二、General 365：一块戳破泡沫的试金石

如果说 LongCat-Video-Avatar 是给创作者的礼物，那 General 365 就是给全行业的警钟。

数字不说谎

美团 LongCat 团队发布了这个全新的推理能力评测基准，并对 26 款主流大模型进行了评估：

第一名：Gemini 3 Pro — 62.8%
及格线：60%（传统意义上的「及格」）
不及格模型：超过一半

换句话说，当前市面上绝大多数大模型，在面对 General 365 的推理题时，连「及格」都做不到。

这跟其他基准有什么不同？

General 365 的独特之处在于：它不考知识储备，不考语言流畅度，专考推理。这意味着无法靠「记住训练数据中的答案」来刷分。

结果说明了一个残酷的现实：过去两年大模型的进步，更多体现在知识覆盖和语言能力上，真正的逻辑推理能力远没有跟上。

对用户的启示

如果你用 AI 做严肃决策类的事情（数据分析、策略规划、代码审查），不要默认相信模型的结果。General 365 的数据表明，即使是当前最强的模型，也有超过三分之一的情况会出错。

三、两件事之间的联系

放在一起看，美团 LongCat 今天的两则消息其实讲的是同一个故事：

AI 正在从「演示经济」走向「实干经济」。

一边是数字人从实验室走向直播间和课堂——需要真能用、不出错、能挣钱。另一边是推理基准戳破「看起来很聪明」的假象——大家才发现真正的推理还差得远。

对于普通用户，这意味着：

能直接用的东西越来越多了（数字人就是例子）
但别被「看起来很聪明」的 Demo 骗了
持保留意见，亲自测试，永远是最好的策略

资源链接

本文基于美团技术团队 2026 年 6 月 7 日的公开信息撰写，数据来源为官方开源仓库及评测报告。

美团 LongCat 双连发：开源商业级数字人生成 + 通用推理基准 General 365

美团 LongCat 双连发：开源商业级数字人生成 + 通用推理基准 General 365

一、LongCat-Video-Avatar 1.5：从「能看」到「商用」

核心升级

谁该关注

二、General 365：一块戳破泡沫的试金石

数字不说谎

这跟其他基准有什么不同？

对用户的启示

三、两件事之间的联系

资源链接

Related AI Tools

LongCat-Video-Avatar

Kling AI

Runway Gen-3

Veo 3

Sora