本次开源包含两部分： 1. LongCat-Next 核心模型——权重和推理代码 2. 离散分词器（Discrete Tokenizer）——将视觉和音频输入转换为模型原生标记格式开发者现在可以基于此构建理解物理空间的上下文感知 AI 系统——比如能看到抓取物的仓库机器人、理解你周围环境的 AR 助手、为视障用户描述世界的辅助工具。

美团 LongCat-Next 开源：原生多模态模型，看和听是它的母语

Q: 开源生态的拼图意义

开源 AI 长期以来被语言模型和图像生成器主导。LongCat-Next 补齐了关键一块：真实世界感知。 对比来看： - LLaMA / DeepSeek / Qwen → 文本推理 - Stable Diffusion / Flux → 图像生成 - Whisper → 语音识别 - LongCat-Next → 统一感知 + 理解 这可能是下一代机器人、自动驾驶、AR/VR 的基础模型——而且完全开源、无厂商锁定。

Q: General 365 基准完整结果出炉

与 LongCat-Next 一同发布的还有 General 365 推理基准的完整测评结果。测试了 26 款主流大模型。 结果引人深思： | 模型 | General 365 得分 | |-------|------------------| | Gemini 3 Pro | 62.8% 🥇 | | Claude Opus 4.8 | ~58% | | GPT-5.5 | ~56% | | DeepSeek V4 | ~55% | | 其余 22 款模型 | 均未达 60% | 基准将 60% 设为及格线。绝大部分不及格。 这套基准专门测试复杂逻辑推理——多步演绎、反事实推理、因果推断——而不是知识检索。结果说明即便是最前沿的模型，在真正需要"动脑子"的任务上仍然存在显著盲区。 ---

Q: 周一 AI 速递：更多值得关注的新闻

WWDC 2026 上，Apple 展示了完全重写的 Siri： - 理解屏幕上下文 - 跨 App 搜索信息和照片 - 执行多步骤操作（叫车→发消息→排日程） - 设备间保持对话记忆 超过 10 亿台活跃 iPhone，这是历史上最大规模的消费级 AI 智能体部署。隐私优先策略（设备端处理 + 私有云端计算）给了 Apple 竞争对手难以复制的信任优势。 相关阅读：WWDC 2026：Apple 的 AI 核心] 自卸任亚马逊 CEO 以来，Jeff Bezos 首次公开支持新 AI 项目——Prometheus——聚焦工业工程领域。 与聊天机器人公司不同，Prometheus 的目标是帮助工程师设计、模拟、优化和制造物理产品。如果成功，这可能是 AI 在软件领域之外最具影响力的应用之一。 月之暗面推出 Kimi Work，一个能同时协调数百个 AI 智能体的桌面平台，覆盖研究、分析、报告生成和工作流自动化。本地优先的架构也吸引了注重数据隐私的企业用户。 Google 在 I/O 大会上发布两款新模型： - Gemini Omni——可从任意输入生成任意内容，首个场景是视频输入。在世

2026 年 6 月 15 日，美团 LongCat 团队开源了 LongCat-Next——一个将视觉和语音作为一等输入通道的原生多模态模型。

这和本月初发布的 LongCat-Video-Avatar 1.5 不一样。数字人模型是"生成"，LongCat-Next 是感知——它通过视觉和听觉理解物理世界，然后据此行动。

架构上的根本差异

目前大多数多模态模型的做法是：图像→分词→塞进文本预测管道。Vision 是嫁接在语言骨干上的附加功能。

LongCat-Next 推翻了这个架构。视觉和语音是模型的原生语言，不是后加的模块。模型从零设计：

感知真实环境——摄像头+麦克风输入
理解空间关系、物体交互、人类动作
响应——根据上下文用自然语言反馈

"我们不是给语言模型加视觉，"LongCat 团队表示，"我们在构建一个碰巧同时会说话、会看、会听的模型。"

开源了什么

本次开源包含两部分：

LongCat-Next 核心模型——权重和推理代码
离散分词器（Discrete Tokenizer）——将视觉和音频输入转换为模型原生标记格式

开发者现在可以基于此构建理解物理空间的上下文感知 AI 系统——比如能看到抓取物的仓库机器人、理解你周围环境的 AR 助手、为视障用户描述世界的辅助工具。

开源生态的拼图意义

开源 AI 长期以来被语言模型和图像生成器主导。LongCat-Next 补齐了关键一块：真实世界感知。

对比来看：

LLaMA / DeepSeek / Qwen → 文本推理
Stable Diffusion / Flux → 图像生成
Whisper → 语音识别
LongCat-Next → 统一感知 + 理解

这可能是下一代机器人、自动驾驶、AR/VR 的基础模型——而且完全开源、无厂商锁定。

General 365 基准完整结果出炉

与 LongCat-Next 一同发布的还有 General 365 推理基准的完整测评结果。测试了 26 款主流大模型。

结果引人深思：

模型	General 365 得分
Gemini 3 Pro	62.8% 🥇
Claude Opus 4.8	~58%
GPT-5.5	~56%
DeepSeek V4	~55%
其余 22 款模型	均未达 60%

基准将 60% 设为及格线。绝大部分不及格。

这套基准专门测试复杂逻辑推理——多步演绎、反事实推理、因果推断——而不是知识检索。结果说明即便是最前沿的模型，在真正需要"动脑子"的任务上仍然存在显著盲区。

周一 AI 速递：更多值得关注的新闻

Apple Siri 全面改造

WWDC 2026 上，Apple 展示了完全重写的 Siri：

理解屏幕上下文
跨 App 搜索信息和照片
执行多步骤操作（叫车→发消息→排日程）
设备间保持对话记忆

超过 10 亿台活跃 iPhone，这是历史上最大规模的消费级 AI 智能体部署。隐私优先策略（设备端处理 + 私有云端计算）给了 Apple 竞争对手难以复制的信任优势。

相关阅读：WWDC 2026：Apple 的 AI 核心

贝佐斯回归，押注 Prometheus AI

自卸任亚马逊 CEO 以来，Jeff Bezos 首次公开支持新 AI 项目——Prometheus——聚焦工业工程领域。

与聊天机器人公司不同，Prometheus 的目标是帮助工程师设计、模拟、优化和制造物理产品。如果成功，这可能是 AI 在软件领域之外最具影响力的应用之一。

Moonshot Kimi Work：多智能体桌面平台

月之暗面推出 Kimi Work，一个能同时协调数百个 AI 智能体的桌面平台，覆盖研究、分析、报告生成和工作流自动化。本地优先的架构也吸引了注重数据隐私的企业用户。

Google I/O 2026：Gemini Omni + Gemini 3.5 Flash

Google 在 I/O 大会上发布两款新模型：

Gemini Omni——可从任意输入生成任意内容，首个场景是视频输入。在世界理解和多模态编辑方面实现质的飞跃
Gemini 3.5 Flash——新一代模型家族的首款，兼具前沿智能和行动能力

详细解读：Google I/O 2026 AI 大盘点

六月 AI 的两条主线

纵观本周所有新闻，两条清晰的方向浮现：

主线一：多模态感知——能看、能听、能理解物理世界的模型（LongCat-Next、Gemini Omni、Apple 设备端 AI）

主线二：多智能体协同——协调多个 AI 智能体完成复杂任务的系统（Kimi Work、Apple Siri、Hermes 定时智能体）

下一阶段胜出的公司，不会是聊天做得最好的那家。而是能跨越「会说话的 AI」和「会干活的 AI」之间那道鸿沟的那家。

你对原生多模态和拼接式多模态怎么看？欢迎讨论或提交工具到觅·Mee 目录。

美团 LongCat-Next 开源：原生多模态模型，看和听是它的母语

美团 LongCat-Next 开源：原生多模态模型，看和听是它的母语

架构上的根本差异

开源了什么

开源生态的拼图意义

General 365 基准完整结果出炉

周一 AI 速递：更多值得关注的新闻

Apple Siri 全面改造

贝佐斯回归，押注 Prometheus AI

Moonshot Kimi Work：多智能体桌面平台

Google I/O 2026：Gemini Omni + Gemini 3.5 Flash

六月 AI 的两条主线

Related AI Tools

LongCat-Video-Avatar

ChatGPT

Kimi（月之暗面）