JetBrains Air 把多Agent带进 IDE 主战场

今日关键信号：token 节省被量化、Agent开始“住进”真实电脑、流式视频走向多轮交互
大厂｜授权与审计被拉到台前：安全事件披露与 CI 红队工具链提供参照
研究｜推理预算化的两条证据链：KV 驱逐与预算感知搜索一起抬头
工程｜Agent持久运行时不再是口号：git-backed 记忆与可休眠 VM 进入实现清单
产品｜流式视频推理的卖点在“连续追踪”：从离线摘要转向边看边问
AI Coding｜IDE 多Agent编排落到产品：JetBrains Air 与“并行执行+成本账本”

今日关键信号：token 节省被量化、Agent开始“住进”真实电脑、流式视频走向多轮交互

70–90% 的 token 节省开始被开发者拿来当“会话级 KPI”，而不是事后拍脑袋的优化目标。[15] HN 讨论中有工程师把节省归因于更少的重复上下文与更短的往返链路，但也有人提醒省 token 可能以丢失关键信息为代价，这类收益目前缺少跨任务复现。[15]
过去是“agent 跑脚本”，现在更像“agent 常驻一台可恢复的电脑”。Letta 在路线更新里强调把记忆/技能与执行绑定到更可落地的组件（例如可版本化的记忆形态与更接近真实环境的访问方式），信号强但企业边界仍卡在权限与审计。[26] OpenComputer 则把这类长时运行、可休眠/可唤醒的基础设施当成新的 workload 来设计，隐含前提是成本模型与 SLO 要能覆盖“状态带来的不确定性”。[27]
“看完再答”正在被“边看边想、还能多轮追问”替代，流式视频从演示走向交互范式竞争。研究者在流式多轮视频推理中引入分段在线记忆，并报告多轮场景下输出 token 可显著下降，同时维持或提升基准表现。[9] 另一条路线强调同步推理，让模型在视频流入时就组织线索以减少回看与断裂，但追踪丢失与错误累积仍是显性风险点。[29]
推理预算不再只是“降本”，而是在底层和上层同时被量化：显存/TTFT 与 agent 成功率一起进入优化表。LookaheadKV 论文作者用“1K cache budget 约 81% 压缩、性能下降 <0.7%”和“驱逐成本最高 14.5× 降低、TTFT 更快”把 KV 驱逐从玄学变成可对账指标。[7] BAVT 论文作者则在 agent 搜索层把剩余预算显式纳入节点选择，声称在严格低预算下可用更少资源超越基线，但这类结果对真实工具链的泛化仍需观察。[28]

大厂｜授权与审计被拉到台前：安全事件披露与 CI 红队工具链提供参照

把“已登录用户”与“公众访问”混为一谈，安全边界就会立刻失真；最近的披露更像是在提醒：授权语义必须被写进系统，而不是写进公告。

安全事件披露模板回归到“访问前提”：Companies House 在通告中明确指出问题只对“持有授权码且已登录 WebFiling 的用户”成立，并把“能做什么/不能做什么”逐条拆开（例如密码未泄露、无法批量抓取、一次仅能查看单个公司记录）[30]；对Agent系统的对应启发是把每次工具调用的前提条件（身份、作用域、速率、对象粒度）固化为可审计的策略，而不是在提示词里做软约束。
修复节奏把“独立测试”变成复工门槛：Companies House 说明其在关闭服务调查后，经“独立测试”再恢复上线，并同步向监管方主动报告[30]；影响边界在于这类流程只覆盖“已知故障路径”，对Agent场景里更隐蔽的“组合动作链”仍需要持续回归与对抗测试来兜底。
红队能力从“安全评审会议”迁移到 CI 产物：Promptfoo 将 red teaming / vulnerability scanning、CI/CD 自动化、以及可共享的评测结果作为产品核心能力来描述[4]；这意味着授权与审计不再只盯生产运行日志，还要盯“发布前的失败样本库”，让每次策略变更都可复现地触发同一批攻击用例。
控制点继续下沉到基础设施层：Meta 在工程博客中把 jemalloc 描述为“高杠杆、需最高严谨”的基础组件，并强调其长期可靠性与维护成本的权衡[14]；类比到Agent体系，越底层的执行与资源管理（内存、凭证、网络出口、沙箱）越应该内置默认审计与最小权限，否则上层再聪明的策略也会被底层的“不可见状态”拖垮。

研究｜推理预算化的两条证据链：KV 驱逐与预算感知搜索一起抬头

过去“省 token”多靠提示词与截断；现在更像两条可拼接的证据链：底层先把 KV/显存这笔账算清，上层再把“还剩多少预算”写进搜索策略。

证据链 A：KV 驱逐从启发式走向“可预测”

LookaheadKV 把 KV 驱逐做成“先看一眼未来再决定丢谁”：论文作者报告，在约 1K cache budget（~81% 压缩）下性能下降小于 0.7%，同时把驱逐开销降到最高 14.5×，并带来更快的 TTFT（首 token 延迟）[7]。这让“长上下文=线性涨成本”的直觉被部分打破：成本不再只受上下文长度支配，也受驱逐策略的计算开销支配。
重要性在于工程接口更清晰了：把 KV 当作“可控的缓存层”，推理时可以显式给出 cache budget，而不是隐式赌显存够不够[7]。对长会话 agent，cache 预算通常比 token 预算更先触顶。
边界也明显：这类方法依赖“重要性预测”在分布外的稳定性；长依赖、突发回指的信息（早期线索在后面才用到）是否被误删，仍需观察，尤其在工具调用把轨迹拉长时（未证实）[7]。

证据链 B：预算感知搜索把“成功率-成本”拉进同一坐标系

BAVT 把多跳推理/agent 任务表述成动态搜索树，并用“剩余资源比例”作为节点选择的缩放因子，让策略从广泛探索逐步转向贪心利用；作者还声称给出了在有限预算下以至少 1-ε 概率到达终止答案的界[28]。这类设计等于把“预算耗尽前要更敢剪枝”变成可复用的推理范式。
更现实的一点是，它试图解决 LLM 自评过度自信：BAVT 用 residual value predictor 评估“相对进展”而非“绝对好坏”，用于剪掉冗余/无信息的工具调用[28]。对 agent 系统，这比单纯多采样更像成本治理：不只少花，还要在关键步花得更准。
需要警惕的退化区间：论文强调低预算下也能超过并行采样基线（甚至在更少资源下达到更好效果）[28]，但“低预算”为何还能更好，往往来自更激进的剪枝与更强的价值估计先验；一旦价值估计在新任务上漂移，失败可能更突然、更难诊断（需观察）[28]。

两条链怎么合到一起：从“能跑”到“能控”

当 KV 驱逐把显存/延迟从硬约束变成可调旋钮[7]，预算感知搜索就可以把 token、步骤、工具调用次数当作统一预算的一部分来分配[28]；对外暴露的将是“成功率@预算、P95@预算”这种产品级指标，而不只是离线准确率。
但预算化也在放大一个旧问题：上下文在会话中多次更新时，模型的检索偏置会累积。研究者在“多次 in-context 知识更新”设定下诊断了 retrieval bias，说明“省下来的上下文/步骤”未必等价于“不会忘”[6]。短预算策略若叠加检索偏置，可能出现看似节省、实则走歪的轨迹（未证实）[6]。
评测口径也在补课：MM-CondChain 这类“可程序化验证”的组合推理基准，研究者试图用更可判定的方式测长链条推理质量[8]。它不直接等于预算化推理的胜负手，但给了一个方向：当系统引入自适应剪枝与缓存驱逐，评测要更像“可回放的账本”，而不是单点问答。

工程｜Agent持久运行时不再是口号：git-backed 记忆与可休眠 VM 进入实现清单

过去的Agent像“临时工”：一次工单、一次容器，干完抹掉。现在的实现路线更像“在岗员工”：能下班休眠、被叫醒继续，手里还握着可回放的工作笔记。[27]

从「记忆即提示词」到「记忆即版本库」

Letta 在路线图里把记忆做成 git-backed 的一等公民，并把 skills 与真实电脑访问一起列入可落地组件清单。[26] 这带来的工程收益不是“更聪明”，而是可回放、可 diff、可回滚：出错时你追得上“它到底记了什么、何时改的”。
代价也同样清晰：git-backed 记忆意味着要处理冲突与合并语义——当两个子任务同时写入同一段“长期事实”，到底谁赢？没有冲突策略就没有可靠性。[26]
让记忆可版本化后，观测点会从“token 使用”转向“状态变更”：哪次提交触发了权限升级、网络访问、工具链更新，必须能在审计里对上号。[26]

可休眠 VM 把「成本模型」拉进 SLO

OpenComputer 把 agent 视为一种新的工作负载：不是短跑函数，而是长跑会话，价值在于“挂起/恢复”而不是“每次重建”。[27] 对工程团队来说，这直接改变计费与容量规划：闲时省钱，忙时要抢得过唤醒风暴。
但休眠的边界在哪里？状态越多，漂移越难控；恢复越快，越依赖底层快照与隔离实现。[27] 真正的风险是“看似恢复了，实际上环境悄悄变了”，直到产出不一致才爆雷。

权限与审计：把 “能做什么” 写进运行时

Companies House 在安全事件通报里明确了“只有已登录且持授权码用户可触发、影响项有哪些、哪些没受影响、何时关闭服务并完成独立测试后恢复”。[30] 这类披露方式值得Agent运行时照搬：把权限前置为可枚举的能力边界，把影响面拆成可验证的清单。
长驻环境天然扩大攻击面：一个被接管的会话不再是一次 API 调用，而是一个持续存在的入口。[27] 这也是工程上最容易被忽略的“时长风险”。

评测与回归：持久化之后更需要把失败“固定下来”

Promptfoo 把评测/红队做成 CLI 与 CI/CD 可自动化的形态，并强调能生成可共享的报告产物。[22] 对持久运行时而言，价值在于把“某次恢复后工具调用异常”这类问题固化进回归套件，而不是靠复现运气。
开发者社区的分歧也开始显性化：HN 讨论里有人宣称多会话编排可节省 70–90% tokens，但也有人暗示节省来自更激进的上下文裁剪，可能换来质量波动。[15] 一句话总结：省钱与可调试性经常站在对立面。
Stavros 在实践文章里强调用 LLM 写软件时要依赖可验证的反馈环（测试、工具输出）而不是“感觉对了”。[2] 把Agent放进可休眠 VM 后，这条原则更硬：每次唤醒都要有“健康检查 + 断言集”，不然你是在和幽灵环境对话。

产品｜流式视频推理的卖点在“连续追踪”：从离线摘要转向边看边问

过去一年“视频理解”更像离线摘要机：先切片、再检索、最后回答；现在产品叙事开始变成“实时同屏协作”，关键不是更会描述画面，而是能在时间轴上持续追踪同一对象与状态变化。[29] 这会把视频从内容资产变成可查询的现场信号流——你不再问“刚才发生了什么”，而是问“它现在还在吗、下一步会怎样”。

形态变化：从一次性回答，变成持续对齐的对话

研究团队在“Think While Watching”里把能力拆成“分段在线记忆 + 多轮交互”，并报告多轮场景的输出 token 明显下降（描述为 56%）同时成绩提升。[9]
“Video Streaming Thinking”一类工作把同步推理定义为：视频在播时模型就开始组织线索，而不是等问题出现后再回看补课，从体验上更像直播间里的“边看边记”。[29]
产品上最像新物种的是“会跟丢会纠正”的观看过程：用户追问同一目标（人/车/零件）时，系统需要显式承认不确定，并把追踪状态作为对话对象的一部分，而不是把每轮都当新问题。

谁会先用：不是内容平台，而是“要盯住同一件事”的岗位

安防/工厂巡检/门店运营这类场景更关心持续追踪的可靠性：同一对象跨镜头、跨遮挡、跨时间段的身份一致性，决定了能否进入值班流程，而不只是出一段好看的摘要。[9]
电商导购与直播质检更像“边看边问”的天然入口：当运营问“刚才那件黑色外套的尺码牌出现过吗？”系统需要把短暂出现的细节当作可回忆的证据，而不是重新生成一段描述。[29]
研发与数据团队会把它当成“视频版可观察性”：像看日志一样看视频流，持续发问、持续校准；这类诉求常见于需要复盘的业务线，而不是泛娱乐。

进入组织的方式：从“视频分析项目”转成“对现有系统加一条问答通道”

更可能的落地路径是叠加在现有摄像头/NVR/直播后台之上，以“对话式检索+持续追踪”做增量，而不是替换整套视频管理系统；采购议价点也会从模型参数转向延迟与误报成本。[9]
一些“Agent Computer”类产品把“让模型接管屏幕并操作工具”当作卖点，[20] 这会与流式视频推理形成组合：前者负责执行（开工单、调监控、截取片段），后者负责连续感知与解释，组织里由此出现“视觉事件 → 自动动作”的闭环分工。
当团队已经在用 IDE 多Agent编排时，视频流能力会被当作另一种输入通道进入同一套工作台：把“看监控/看直播”也变成可被Agent消费的任务流。[25]

定价与分发线索：计费单位正在从“分钟视频”迁移到“会话 SLO”

离线视频分析容易按分钟/小时计费；流式多轮更像按“并发会话 + P95 延迟 + 追踪窗口长度”计费，因为成本与交互频率绑定，而不是与视频时长线性绑定。[29]
“Think While Watching”强调在线记忆降低多轮输出 token，[9] 这会把商业上可控的焦点推向：同等预算下能支撑多少轮追问、追踪状态能保多久、丢追踪后恢复要不要重新付费。
端侧/边缘推理短期仍是少数，但分发会更愿意从“门店盒子/工控机”这种固定形态切入：能把带宽、隐私与延迟一次性谈清楚，避免云端实时流的常年费用不确定性。[20]

对流程与角色的影响：从“分析师出报告”到“值守人员带着模型一起盯”

角色变化最明显的是“当班的人”：以前是看屏幕、做判断、写记录；现在变成“持续提问+确认追踪状态+触发动作”，更像在指挥一个看得见的副手。[29]
研发侧会新增一种工作：维护“追踪语义”而不是维护分类标签，比如把“同一对象”的定义（外观、时序、位置、业务规则）写进系统可解释的状态里，方便事后审计与回放。[9]
业务边界也更清晰：它擅长把长视频变成可交互的短记忆，但一旦出现遮挡、镜头切换、多人同服装等情况，错误会累积并在多轮对话里放大，团队需要有“丢了就承认、回退到人工截帧复核”的默认流程。[29]

AI Coding｜IDE 多Agent编排落到产品：JetBrains Air 与“并行执行+成本账本”

过去的 IDE AI 是“一个聊天框带你写代码”；现在更像“一个调度台带你跑任务”。JetBrains 把 Air 放到产品货架上，意味着多Agent不再只存在于命令行和脚本里，而是要进到开发者每天打开的主战场里对齐流程与权限边界。[25]

能力边界：从“会写代码”到“会同时干活，但要有人做总控”

JetBrains 在 JetBrains Air 的产品信息中把它定位为 IDE 内的 agent 形态入口，这会把“拆任务/并行推进”变成默认交互，而不是高级用户的自建玩法。[25]
HN 讨论中有开发者把“多会话/长任务”直接换算成 token 成本问题，并用“每会话节省 70–90% tokens”的口径表达收益预期；但评论也提醒：省 token 可能伴随上下文丢失与质量波动，结论需观察具体实现与回退策略。[15]

工程化落地：可靠性不靠口号，靠评测、回放与回归

Promptfoo 把“评测+红队”做成 CLI/库并可接入 CI/CD，这等于给多Agent系统补上回归护栏：同一个任务在不同模型/不同提示/不同工具权限下，必须产出可对比的报告与可追踪日志。[22]
Cline 在 v3.73.0 的发布记录里持续迭代Agent执行侧能力，释放出的信号是：IDE/编辑器侧的 agent 竞争，正在从“谁更会聊”转向“谁更能稳定跑完一条流水线并被复盘”。[24]

组织与流程：并行带来吞吐，也带来审计与成本归因的硬要求

当多Agent并行成为默认，团队会被迫把“谁授权了什么、跑了什么、花了多少”写进流程；HN 讨论里工程师把 token 视为会话级成本单位，本质是在推动按任务归因的“成本账本”思维进入研发管理。[15]
Dictare 把语音层做成可本地运行的开源组件，提示组织层面的另一种变化：交互入口开始扩散（IDE、CLI、语音），而治理重点会从入口统一转向执行层统一（权限、日志、回放、评测）。[23]

前沿今辰观