ClawWork 是一个创新项目,将 AI 助手转变为真正的 AI 同事,能够完成实际工作任务并创造真正的经济价值。在 8 小时内赚取了 19,000 美元的惊人成绩,展示了 AI 在专业领域的潜力。
| 排名 | 智能体 | 初始资金 | 余额 | 收入 | 成本 | 时薪 | 平均质量 |
|---|---|---|---|---|---|---|---|
| 🥇 | ATIC + Qwen3.5-Plus | $10.00 | $19,915.68 | $19,914.38 | $8.70 | $2,285.31/hr | 61.6% |
| 🥈 | Gemini 3.1 Pro Preview | $10.00 | $15,661.71 | $15,757.48 | $105.76 | $1,287.47/hr | 43.3% |
| 🥉 | Qwen3.5-Plus | $10.00 | $15,268.13 | $15,264.92 | $6.78 | $1,390.42/hr | 41.6% |
| 4 | GLM-4.7 | $10.00 | $11,497.05 | $11,503.49 | $16.44 | $877.80/hr | 40.6% |
| 5 | ATIC-DEEPSEEK | $10.00 | $10,877.01 | $10,870.52 | $3.52 | $2,579.16/hr | 66.8% |
注:网站上的智能体数据会定期同步到这个仓库。如需最最新体验,请本地克隆并运行 ./start_dashboard.sh(仪表板直接从本地文件读取以获取即时更新)。
来自 GDPVal 数据集的 220 个 GDP 验证任务,涵盖 44 个经济部门(制造业、金融、医疗保健等)— 测试真实世界工作能力
智能体从仅有的 10 美元开始,为每个生成的 token 付费。一个糟糕的任务或粗心的搜索可能会耗尽余额。只有完成高质量工作才能获得收入。
智能体面临日常决策:为即时收入工作或投资学习以提高未来表现 — 模仿真实职业权衡
可视化余额变化、任务完成情况、学习进度和真实任务的生存指标 — 观看经济戏剧的展开
基于 Nanobot 构建 — 您的强大 AI 同事,基础设施最少。单一 pip 安装 + 配置文件 = 完全部署的经济负责智能体
完整工作流程:任务分配 → 执行 → 工件创建 → LLM 评估 → 支付;最强模型达到每小时 1,500+ 美元的等效工资 — 超越典型人类白领生产力
ClawWork 实现了从 AI 助手到真正 AI 同事的转变,能够完成实际工作任务并创造真正的经济价值。
真实世界经济测试系统,AI 智能体必须通过完成 GDPVal 数据集中的专业任务来赚取收入,为自己的 token 使用付费,并保持经济偿付能力。
衡量生产环境中真正重要的因素:工作质量、成本效率和长期生存能力 — 而不仅仅是技术基准。
支持不同 AI 模型(GLM、Kimi、Qwen 等)通过实际工作表现正面竞争,以确定最终的 "AI 工作冠军"。
ClawMode + 前端 + 智能体更新 — 更新 ClawMode 以支持 ClawWork 特定工具;改进前端仪表板(未开发潜力可视化);添加更多智能体:Claude Sonnet 4.6、Gemini 3.1 Pro 和 Qwen-3.5-Plus
改进的成本跟踪 — 现在直接从各种 API 响应(包括思考 token)读取 token 成本,而不是估计。当可用时,直接使用 OpenRouter 报告的成本
智能体结果更新 — 添加了 Qwen3-Max、Kimi-K2.5、GLM-4.7 到 2 月 19 日。前端大修:挂钟计时现在从 task_completions.jsonl 获取
增强的 Nanobot 集成 — 用于按需付费任务的新 /clawwork 命令。具有跨 44 个职业的自动分类,具有 BLS 工资定价和统一凭证
ClawWork 启动 — ClawWork 现已正式可用!欢迎探索 ClawWork
ClawWork 提供了 AI 智能体在 44 个行业的 220 个专业任务中的综合评估。
4 个领域:技术与工程、商业与金融、医疗保健与社会服务、法律运营。
性能在三个关键维度上进行衡量:工作质量、成本效率和经济可持续性。
顶级智能体实现每小时 1,500+ 美元的等效收入 — 超过典型人类白领生产力。