文章 – 酥悠沫大模型评测

OpenClawProBench

一个聚焦 OpenClaw agent 智力表现的 benchmark，关注模型在真实工具调用、规划、约束遵循、安全与稳定多维信号下的综合能力。

点击标题即可进入 benchmark 页面查看 architecture、dataset、scoring 与 leaderboard。这里继续保留我的文章内容与更新。

文章

OpenClaw从发布到2月9日，它的最新记忆系统是怎么样的

2026年02月09日技术

OpenClaw 的 Agent 记忆系统采用"Markdown 为真相源、SQLite为派生索引"的双层存储架构。记忆以人类可读的 Markdown 文件持久化（MEMORY.md +memory/*.md），SQLite 数据库承载 FTS5 全文索引和 sqlite-vec向量索引，支持随时从源文件重建。检...

姚顺雨混元第一篇论文《CL-bench》上下文学习评测

2026年02月04日技术

一、论文核心摘要

anthropic的cowork类似的开源项目介绍

2026年01月19日技术

思考：anthropic总是能想出新的东西，比之前openai出智能体商店啥的强多了。从mcp到claude code到skill，再到cowork。因为cowork是闭源的，然后现在AI开发很强了，开源开发者一下就跟进了开源的cowork项目，ai办公助手，像豆包电脑端，还是得上传文件，然后没有特别针对办公场景...

Anthropic的《Demystifying evals for AI agents》Agent评估详解

2026年01月12日技术

该文章由anthropic在1月9日发布，应该是anthropic第一篇系统讲agent评估的。原文链接可以翻到最底下。

关于Agent评估，我的一些思考

2025年12月02日随笔

写在前面，2025年被称为”AI Agent之年”。当越来越多的Agent从实验室走向生产环境,如何科学地评估它们的能力,成了一个绑不开的话题。

Agent评估方法论：工程化实践指南

2025年11月12日技术

一、Agent评估方法论框架

LLM Agent效果评估完整方法论与实践指南

2025年11月11日技术

执行摘要

姚顺雨，进入大模型下半场

2025年04月25日随笔

读了姚顺雨大神的新博客：The Second Half，insights非常深刻，堪称AGI时代的the bitter lesson，推荐大家去他的博客上阅读原文。以下是摘录：几十年来，AI的研究者都在重复着提出榜单(benchmark)-提出算法刷榜-提出更难的榜单的游戏。但今天，事情不一样了。我们讨论的是通...