SWE-bench

All

6 repositories

experiments
Public
Open sourced predictions, execution logs, trajectories, and results from model inference + evaluation runs on the SWE-bench task.
Shell
•150•148•4•14•Updated Feb 25, 2025Feb 25, 2025
sb-cli
Public
Run SWE-bench evaluations remotely
Python
•
MIT License
•0•5•3•0•Updated Feb 25, 2025Feb 25, 2025
swe-bench.github.io
Public
Landing page + leaderboard for SWE-Bench benchmark
HTML
•4•1•1•1•Updated Feb 25, 2025Feb 25, 2025
SWE-bench
Public
SWE-bench [Multimodal]: Can Language Models Resolve Real-world Github Issues?
benchmark software-engineering language-model
Python
•
MIT License
•426•2.5k•32•5•Updated Feb 24, 2025Feb 24, 2025
.github
Public
0•0•0•0•Updated Oct 24, 2024Oct 24, 2024
humanevalfix-results
Public
Evaluation data + results for SWE-agent inference on HumanEvalFix task
Jupyter Notebook
•0•0•0•0•Updated Jul 11, 2024Jul 11, 2024