Back to Blog
美团LongCat-Next多模态AI开源Apple SiriAI智能体General 365贝佐斯 Prometheus

美团 LongCat-Next 开源:原生多模态模型,看和听是它的母语

2026-06-1510 min未然

美团 LongCat-Next 开源:原生多模态模型,看和听是它的母语

2026 年 6 月 15 日,美团 LongCat 团队开源了 LongCat-Next——一个将视觉和语音作为一等输入通道的原生多模态模型。

这和本月初发布的 LongCat-Video-Avatar 1.5 不一样。数字人模型是"生成",LongCat-Next 是感知——它通过视觉和听觉理解物理世界,然后据此行动。

架构上的根本差异

目前大多数多模态模型的做法是:图像→分词→塞进文本预测管道。Vision 是嫁接在语言骨干上的附加功能。

LongCat-Next 推翻了这个架构。视觉和语音是模型的原生语言,不是后加的模块。模型从零设计:

  • 感知真实环境——摄像头+麦克风输入
  • 理解空间关系、物体交互、人类动作
  • 响应——根据上下文用自然语言反馈

"我们不是给语言模型加视觉,"LongCat 团队表示,"我们在构建一个碰巧同时会说话、会看、会听的模型。"

开源了什么

本次开源包含两部分:

  1. LongCat-Next 核心模型——权重和推理代码
  2. 离散分词器(Discrete Tokenizer)——将视觉和音频输入转换为模型原生标记格式

开发者现在可以基于此构建理解物理空间的上下文感知 AI 系统——比如能看到抓取物的仓库机器人、理解你周围环境的 AR 助手、为视障用户描述世界的辅助工具。

开源生态的拼图意义

开源 AI 长期以来被语言模型和图像生成器主导。LongCat-Next 补齐了关键一块:真实世界感知

对比来看:

  • LLaMA / DeepSeek / Qwen → 文本推理
  • Stable Diffusion / Flux → 图像生成
  • Whisper → 语音识别
  • LongCat-Next → 统一感知 + 理解

这可能是下一代机器人、自动驾驶、AR/VR 的基础模型——而且完全开源、无厂商锁定。

General 365 基准完整结果出炉

与 LongCat-Next 一同发布的还有 General 365 推理基准的完整测评结果。测试了 26 款主流大模型。

结果引人深思:

模型General 365 得分
Gemini 3 Pro62.8% 🥇
Claude Opus 4.8~58%
GPT-5.5~56%
DeepSeek V4~55%
其余 22 款模型均未达 60%

基准将 60% 设为及格线。绝大部分不及格。

这套基准专门测试复杂逻辑推理——多步演绎、反事实推理、因果推断——而不是知识检索。结果说明即便是最前沿的模型,在真正需要"动脑子"的任务上仍然存在显著盲区。


周一 AI 速递:更多值得关注的新闻

Apple Siri 全面改造

WWDC 2026 上,Apple 展示了完全重写的 Siri:

  • 理解屏幕上下文
  • 跨 App 搜索信息和照片
  • 执行多步骤操作(叫车→发消息→排日程)
  • 设备间保持对话记忆

超过 10 亿台活跃 iPhone,这是历史上最大规模的消费级 AI 智能体部署。隐私优先策略(设备端处理 + 私有云端计算)给了 Apple 竞争对手难以复制的信任优势。

相关阅读:WWDC 2026:Apple 的 AI 核心

贝佐斯回归,押注 Prometheus AI

自卸任亚马逊 CEO 以来,Jeff Bezos 首次公开支持新 AI 项目——Prometheus——聚焦工业工程领域。

与聊天机器人公司不同,Prometheus 的目标是帮助工程师设计、模拟、优化和制造物理产品。如果成功,这可能是 AI 在软件领域之外最具影响力的应用之一。

Moonshot Kimi Work:多智能体桌面平台

月之暗面推出 Kimi Work,一个能同时协调数百个 AI 智能体的桌面平台,覆盖研究、分析、报告生成和工作流自动化。本地优先的架构也吸引了注重数据隐私的企业用户。

Google I/O 2026:Gemini Omni + Gemini 3.5 Flash

Google 在 I/O 大会上发布两款新模型:

  • Gemini Omni——可从任意输入生成任意内容,首个场景是视频输入。在世界理解和多模态编辑方面实现质的飞跃
  • Gemini 3.5 Flash——新一代模型家族的首款,兼具前沿智能和行动能力

详细解读:Google I/O 2026 AI 大盘点


六月 AI 的两条主线

纵观本周所有新闻,两条清晰的方向浮现:

主线一:多模态感知——能看、能听、能理解物理世界的模型(LongCat-Next、Gemini Omni、Apple 设备端 AI)

主线二:多智能体协同——协调多个 AI 智能体完成复杂任务的系统(Kimi Work、Apple Siri、Hermes 定时智能体)

下一阶段胜出的公司,不会是聊天做得最好的那家。而是能跨越「会说话的 AI」和「会干活的 AI」之间那道鸿沟的那家。


你对原生多模态和拼接式多模态怎么看?欢迎讨论或提交工具到觅·Mee 目录。

Found this helpful? Share it with your team.

Read more articles
Share: