3.31 AI 速报：阿里双模型齐发，京东推出 Agent 专属支付

type

Post

status

Published

date

Mar 31, 2026

slug

daily-ai-news-2026-03-31

summary

3 个核心判断：

今日总览

今天的 AI 情报有一条主线值得先说清楚：Agent 基础设施正在从概念走向落地。无论是支付钱包、调试工具、语音管道，还是自我进化系统，今天的动态集中在"让 Agent 真正能用"这件事上，而不只是模型评分的比拼。

3 个核心判断：

阿里和智谱同一天放出新模型，但 Qwen 系列的覆盖面更广、落地速度更快，值得持续跟踪

Agent 的配套工具链正在快速成型：支付、调试、语音管道三个方向今天都有具体动作

模型能力分化趋势明显，"后端强、前端弱"已成为国产模型的共同痛点，也是下一轮竞争的关键战场

今天最值得看的 6 条

1. 阿里 Qwen3.5-Omni 发布，全模态路线正式进入主流竞争

阿里这次不是发一个"也支持图片"的多模态模型，而是在认真押注"原生全模态"这条路线。

Qwen3.5-Omni 同时支持文本、图像、音频和视频理解，并引入了"音频-视觉氛围编码"这个较为新颖的特性。官方声称在多项评测中超越 Gemini 2.1 Pro，这个说法值得等第三方复现，但光是发布本身就有信号意义。

全模态模型的竞争门槛比纯文本高得多：数据管道、推理延迟、模态对齐都是难题。阿里敢于在这个方向正式发布，意味着 Qwen 系列的工程储备比外界预期的更扎实。

对开发者来说，最直接的影响是：如果你在做需要同时处理语音和视频输入的应用，国内终于有一个可以认真评估的选项了。

2. Qwen3.6 悄悄上了 OpenRouter，免费、百万上下文、62tps

没有发布会，没有公告，Qwen3.6 就出现在了 OpenRouter 上，而且可以免费调用。

用户实测 API 速度可达 62 tps，上下文窗口达到 100 万 token。这个组合如果属实，已经是目前公测模型里难得一见的配置。

免费 + 百万上下文 + 高吞吐，这三件事同时出现，不管背后动机是什么，开发者应该趁现在认真测一测。

值得关注的点在于：阿里同一天既发了 Qwen3.5-Omni，又悄然推了 Qwen3.6 公测。这种高密度的发布节奏，说明 Qwen 系列已经进入了产品矩阵密集铺货的阶段。对于需要长上下文处理的任务，这是一个值得现在就动手验证的窗口。

3. GLM-5.1 实测：后端能力突飞猛进，但前端依然是短板

有人认真测了 GLM-5.1，结论比官方说法更有参考价值。

后端编程和 Agent 能力上的提升是真实的：量化优化和 SIMD 优化在向量数据库测试中表现突出，这对做 RAG 和本地推理的开发者来说是实质性进步。但前端的空间理解和界面美学判断能力，提升幅度有限。

这个分化其实是目前国产模型的共性问题，不只是 GLM。后端编程任务容易量化、容易训练，前端涉及的视觉感知和审美判断更难数据化。

额外的麻烦在于：实测过程中遇到了 API 不稳定和权限抢购问题，说明智谱的推理基础设施承压能力还有待加强。如果你的项目依赖 GLM 的稳定调用，现阶段要留备份方案。

4. Meta 实习生造出了能自己写代码改进自己的 Agent 系统

这条信息的标题看起来像噱头，但细节值得认真看。

一名 Meta 华人实习生开发的系统，可以让 Agent 自主编写代码，实现对自身改进方法的迭代。这不是"AI 自动生成代码"的普通用法，而是在尝试让系统具备元学习能力，即"改进自己改进方式"的能力。

这类研究距离生产落地还有一定距离，但它指向了一个关键问题：未来的 Agent 系统是否需要依赖人类手动迭代提示词和工具，还是可以自主完成这个循环。

对研究方向感兴趣的开发者，这篇值得去量子位原文看一下细节。它不是噱头，而是一个具体的系统实现，有方法论可以参考。

5. 京东推出 Agent 专属支付钱包 ClawTip，AI 自主交易基础设施开始有人做了

当 Agent 能自主下单、自主付款，意味着整个链路的基础设施都需要重新设计。

京东科技推出的 ClawTip，定位是 AI 智能体之间的自主支付钱包，目标是让 Agent 在执行任务时可以独立完成资金交互，而不需要人工每一步授权。

这件事为什么值得关注：支付是 Agent 商业化最后一块真正硬的基础设施。模型、工具调用、记忆管理都在快速成熟，但"Agent 能不能自己花钱"这个问题，现有体系里几乎没有成熟答案。

对做 Agent 应用的开发者：这是一个你迟早要面对的问题，京东先踩了一遍坑

对做金融和支付方向的团队：这可能是一个比 C 端扫码支付更值得关注的新方向

细节和实现质量还需要更多公开信息，但这个方向本身已经足够重要。

6. LangSmith 重建了实验详情视图，调试 Agent 失败原因变得更直观

LangChain 这次更新不是加新功能，而是把已有功能做得更好用，这种克制在 AI 工具圈里并不常见。

LangSmith Experiments 的详情视图被彻底重建，重点改进了两件事：痕迹可见性（Trace Visibility）和提示/响应审查。说人话就是：你现在更容易看清楚 Agent 在哪一步出了问题，为什么出问题。

Agent 调试一直是一个被低估的难题，不是模型不够好，而是你根本看不清楚它在想什么。

对在用 LangChain 做 Agent 开发的团队，这个更新直接影响效率。痕迹可见性越好，调试周期越短，这在 Agent 系统复杂度不断上升的当下是刚需改进。值得升级后做一次认真的对比测试。

开发者视角

今天的动态在工具链层面有几个值得单独说的信号：

长上下文 + 免费公测的窗口期正在出现。 Qwen3.6 的 100 万上下文免费可用，是一个不需要理由就该去测的机会，尤其是做文档处理、代码库分析类任务的团队。

Agent 调试工具正在补缺口。 LangSmith 的更新说明整个行业意识到了：Agent 复杂度上升之后，调试体验是下一个影响开发效率的瓶颈。

Perplexity 的语音 Agent 经验值得深挖。 公开信息显示，OpenAI 分享了 Perplexity 使用 Realtime API 构建大规模语音 Agent

今天的判断

Perplexity 使用 Realtime API 构建大规模语音 Agent 的经验被公开分享，这件事本身就说明一个问题：语音 Agent 的工程复杂度已经到了需要专门做经验传递的阶段。延迟控制、中断处理、多轮上下文管理，这些在文本 Agent 里相对好处理的问题，在语音场景下全部变成硬约束。Perplexity 踩过的坑，对任何打算做语音产品的团队都有参考价值，值得专门找原始材料读一遍。

今天整体的信号是：基础能力在扩张，工具链在补课，应用层的空间正在被重新定义。

长上下文免费公测、调试体验改进、语音 Agent 经验公开，这三件事单独看都不算大新闻，但放在一起指向同一个方向——过去半年里被「能力有了但用不好」卡住的那批开发者，现在障碍在系统性降低。

这不是风口论，而是一个很具体的判断：现在动手做的成本比三个月前低，做出来能跑通的概率比三个月前高。 如果你有一个一直「等等再看」的项目，2026 年第一季度的最后一天是个值得重新评估的时间点。