Experience Education

Projects Bookmarks Investments Contact Blog

Welcome! Type "help" for available commands.

$

Loading terminal interface...

Terminal-Bench | William Callahan - Bookmarks

~/bookmarks

Discover Similar Content

William's Bookmark Library

/**/

Terminal-Bench

tbench.aiSaved July 15, 20251 min

AI Benchmark Leaderboard

Summary

Terminal-Bench ranks AI agents in terminal tasks. Warp leads with 52% accuracy using Claude models. The list compares various frameworks and model providers.

Highlights

Warp using claude-4-sonnet leads with 52.0% accuracy.
Anthropic models dominate the top rankings.
OpenAI models generally rank lower in this benchmark.
Diverse agents like Goose and Terminus are evaluated.
Metrics include accuracy and standard deviation.

auto-generated

Preview of Terminal-Bench

via Terminal-Bench

Context

Audience

AI Researchers and Software Developers

DomainArtificial Intelligence

Formatinteractive leaderboard

Accessfree online

Topics

AI Models Terminal Agents Leaderboards AI Benchmarks Performance Comparisons

Visit Site All Bookmarks

Related

Terminal AgentsClaude ModelsOpenAI ModelsAI BenchmarkingWarp Terminal

Discover Similar Content

z.ai

February 11, 2026

GLM-5: From Vibe Coding to Agentic Engineering

GLM-5: From Vibe Coding to Agentic Engineering

GLM-5 is a 744B-parameter MoE model (40B active) from Zhipu AI, scaled up from GLM-4.5's 355B with 28.5T pre-training tokens and DeepSeek Sparse Atten...

Reinforcement Learning Large Language Models Agentic AI AI Benchmarks GLM-5

LINK

github.com

February 2, 2026

spring-ai-agent-utils/spring-ai-agent-utils at main · spring-ai-community/spring-ai-agent-utils

spring-ai-agent-utils/spring-ai-agent-utils at main · spring-ai-community/spring-ai-agent-utils

A Spring AI library that brings Claude Code-inspired tools and agent skills to your AI applications. - spring-ai-community/spring-ai-agent-utils

Claude Code AI Agents Spring AI Agent Tools Task Orchestration

LINK

opencode.ai

June 20, 2025

opencode

The AI coding agent built for the terminal.

AI Coding Assistants AI Coding Tools Open Source Software Developer Tools AI Coding Agents Large Language Models+1

LINK