美团 LongCat-Next 开源:原生多模态模型,看和听是它的母语
美团 LongCat-Next 开源:原生多模态模型,看和听是它的母语
2026 年 6 月 15 日,美团 LongCat 团队开源了 LongCat-Next——一个将视觉和语音作为一等输入通道的原生多模态模型。
这和本月初发布的 LongCat-Video-Avatar 1.5 不一样。数字人模型是"生成",LongCat-Next 是感知——它通过视觉和听觉理解物理世界,然后据此行动。
架构上的根本差异
目前大多数多模态模型的做法是:图像→分词→塞进文本预测管道。Vision 是嫁接在语言骨干上的附加功能。
LongCat-Next 推翻了这个架构。视觉和语音是模型的原生语言,不是后加的模块。模型从零设计:
- 感知真实环境——摄像头+麦克风输入
- 理解空间关系、物体交互、人类动作
- 响应——根据上下文用自然语言反馈
"我们不是给语言模型加视觉,"LongCat 团队表示,"我们在构建一个碰巧同时会说话、会看、会听的模型。"
开源了什么
本次开源包含两部分:
- LongCat-Next 核心模型——权重和推理代码
- 离散分词器(Discrete Tokenizer)——将视觉和音频输入转换为模型原生标记格式
开发者现在可以基于此构建理解物理空间的上下文感知 AI 系统——比如能看到抓取物的仓库机器人、理解你周围环境的 AR 助手、为视障用户描述世界的辅助工具。
开源生态的拼图意义
开源 AI 长期以来被语言模型和图像生成器主导。LongCat-Next 补齐了关键一块:真实世界感知。
对比来看:
- LLaMA / DeepSeek / Qwen → 文本推理
- Stable Diffusion / Flux → 图像生成
- Whisper → 语音识别
- LongCat-Next → 统一感知 + 理解
这可能是下一代机器人、自动驾驶、AR/VR 的基础模型——而且完全开源、无厂商锁定。
General 365 基准完整结果出炉
与 LongCat-Next 一同发布的还有 General 365 推理基准的完整测评结果。测试了 26 款主流大模型。
结果引人深思:
| 模型 | General 365 得分 |
|---|---|
| Gemini 3 Pro | 62.8% 🥇 |
| Claude Opus 4.8 | ~58% |
| GPT-5.5 | ~56% |
| DeepSeek V4 | ~55% |
| 其余 22 款模型 | 均未达 60% |
基准将 60% 设为及格线。绝大部分不及格。
这套基准专门测试复杂逻辑推理——多步演绎、反事实推理、因果推断——而不是知识检索。结果说明即便是最前沿的模型,在真正需要"动脑子"的任务上仍然存在显著盲区。
周一 AI 速递:更多值得关注的新闻
Apple Siri 全面改造
WWDC 2026 上,Apple 展示了完全重写的 Siri:
- 理解屏幕上下文
- 跨 App 搜索信息和照片
- 执行多步骤操作(叫车→发消息→排日程)
- 设备间保持对话记忆
超过 10 亿台活跃 iPhone,这是历史上最大规模的消费级 AI 智能体部署。隐私优先策略(设备端处理 + 私有云端计算)给了 Apple 竞争对手难以复制的信任优势。
贝佐斯回归,押注 Prometheus AI
自卸任亚马逊 CEO 以来,Jeff Bezos 首次公开支持新 AI 项目——Prometheus——聚焦工业工程领域。
与聊天机器人公司不同,Prometheus 的目标是帮助工程师设计、模拟、优化和制造物理产品。如果成功,这可能是 AI 在软件领域之外最具影响力的应用之一。
Moonshot Kimi Work:多智能体桌面平台
月之暗面推出 Kimi Work,一个能同时协调数百个 AI 智能体的桌面平台,覆盖研究、分析、报告生成和工作流自动化。本地优先的架构也吸引了注重数据隐私的企业用户。
Google I/O 2026:Gemini Omni + Gemini 3.5 Flash
Google 在 I/O 大会上发布两款新模型:
- Gemini Omni——可从任意输入生成任意内容,首个场景是视频输入。在世界理解和多模态编辑方面实现质的飞跃
- Gemini 3.5 Flash——新一代模型家族的首款,兼具前沿智能和行动能力
六月 AI 的两条主线
纵观本周所有新闻,两条清晰的方向浮现:
主线一:多模态感知——能看、能听、能理解物理世界的模型(LongCat-Next、Gemini Omni、Apple 设备端 AI)
主线二:多智能体协同——协调多个 AI 智能体完成复杂任务的系统(Kimi Work、Apple Siri、Hermes 定时智能体)
下一阶段胜出的公司,不会是聊天做得最好的那家。而是能跨越「会说话的 AI」和「会干活的 AI」之间那道鸿沟的那家。
你对原生多模态和拼接式多模态怎么看?欢迎讨论或提交工具到觅·Mee 目录。
Related AI Tools
Found this helpful? Share it with your team.
Read more articles →