OpenClawProBench

OpenClawProBench

一个聚焦 OpenClaw agent 智力表现的 benchmark,关注模型在真实工具调用、规划、约束遵循、安全与稳定多维信号下的综合能力。

点击标题即可进入 benchmark 页面查看 architecture、dataset、scoring 与 leaderboard。这里继续保留我的文章内容与更新。

文章

OpenClaw从发布到2月9日,它的最新记忆系统是怎么样的

2026年02月09日 技术

OpenClaw 的 Agent 记忆系统采用"Markdown 为真相源、SQLite为派生索引"的双层存储架构。记忆以人类可读的 Markdown 文件持久化(MEMORY.md +memory/*.md),SQLite 数据库承载 FTS5 全文索引和 sqlite-vec向量索引,支持随时从源文件重建。检...

姚顺雨混元第一篇论文《CL-bench》上下文学习评测

2026年02月04日 技术

一、论文核心摘要

anthropic的cowork类似的开源项目介绍

2026年01月19日 技术

思考:anthropic总是能想出新的东西,比之前openai出智能体商店啥的强多了。从mcp到claude code到skill,再到cowork。因为cowork是闭源的,然后现在AI开发很强了,开源开发者一下就跟进了开源的cowork项目,ai办公助手,像豆包电脑端,还是得上传文件,然后没有特别针对办公场景...

Anthropic的《Demystifying evals for AI agents》Agent评估详解

2026年01月12日 技术

该文章由anthropic在1月9日发布,应该是anthropic第一篇系统讲agent评估的。原文链接可以翻到最底下。

关于Agent评估,我的一些思考

2025年12月02日 随笔

写在前面,2025年被称为”AI Agent之年”。当越来越多的Agent从实验室走向生产环境,如何科学地评估它们的能力,成了一个绑不开的话题。

Agent评估方法论:工程化实践指南

2025年11月12日 技术

一、Agent评估方法论框架

LLM Agent效果评估完整方法论与实践指南

2025年11月11日 技术

执行摘要

姚顺雨,进入大模型下半场

2025年04月25日 随笔

读了姚顺雨大神的新博客:The Second Half,insights非常深刻,堪称AGI时代的the bitter lesson,推荐大家去他的博客上阅读原文。以下是摘录: 几十年来,AI的研究者都在重复着提出榜单(benchmark)-提出算法刷榜-提出更难的榜单的游戏。但今天,事情不一样了。我们讨论的是通...