Agent时代的系统基建:第一届AgenticOS工作坊总结
首届AgenticOS Workshop总结:从ASPLOS 2026出发,探讨Agent与底层基础设施的双重关系——Agent既是系统的新型用户,提出了 fault tolerance、探索性执行、资源管控等全新需求;也是系统能力的新型建造者,推动专用化软件复活与LLM辅助系统管理。
付权智,AgentZones 创始成员,Agent 资深实践者。致力于将 Agent 工程的零散实践系统化,推动 Agent 从工具走向真正可落地的工程体系。
付权智在工业界与学术界均有深厚积累。工业界,他曾在阿里云基础平台参与容器网络核心模块的研发;学术界,他现于弗吉尼亚理工大学攻读计算机科学博士,研究面向 Agent 时代的系统基础设施,也曾赴卡内基梅隆大学开展访问研究。
他现任《高质量交付百倍生产力》主编,致力于搭建出Agent Coding的完整理论框架。本书扎根于社区数百位先锋的真实实践,书中从 Agent 与人类的本质差异出发,逐层推导出工程挑战与对应解法,为 AI 提效提供了清晰的路径。(阅读早期草稿)
首届AgenticOS Workshop总结:从ASPLOS 2026出发,探讨Agent与底层基础设施的双重关系——Agent既是系统的新型用户,提出了 fault tolerance、探索性执行、资源管控等全新需求;也是系统能力的新型建造者,推动专用化软件复活与LLM辅助系统管理。
过去一年,我们在 Agent 管理学论坛里和上百位开发者一起踩坑、复盘、迭代。这篇文章是阶段性总结:AI Coding 不是一个技术问题,而是一个管理问题。从需求端、执行端到验收端,在每一段建立明确的契约,就是 AI Coding 的确定性边界。
CloudMate 已部署上百个 Agent 实例,每周处理上万次故障分析请求。本文拆解其"评估-变异-回测"完整闭环:如何在不断变化的生产环境中构建能适应未知故障的自进化 Agent 系统。
基于知识库的 AIOps 系统面临一个根本性挑战:软件在持续迭代,知识会过期。CloudMate 在两个维度上做出了系统化探索——如何让知识库跟上急速演进的代码,以及软件系统的演进如何避免破坏智能运维的有效性。
梳理近期 AI 运维代表性研究,回答三个问题:AI 运维已经做到了什么、当前能力边界在哪里、未来需要什么。从微软 RCACopilot 到 Stratus,深入分析 Context Engineering 与 LLM Agent 的机遇与挑战。