🤖 AI Models Benchmark 2026

เปรียบเทียบความฉลาด • MMLU, MATH, HumanEval, LiveBench, LMArena • ข้อมูลจาก lmarena.ai & แหล่งข้อมูลสาธารณะ

📡 Overall Performance (Radar)
OpenAI o3
Claude Opus 4
Gemini 2.5 Pro
Grok 4.3
DeepSeek V4 Flash
Llama 4 Scout
Mistral Nemo
📊 Overall Score (LMArena Elo)
📚 MMLU (Multi-task Language Understanding)
🔢 MATH (Mathematical Reasoning)
💻 HumanEval (Coding)
🧪 LiveBench (Real-world Tasks)

🏆 สรุปผู้นำแต่ละด้าน

Overall Champion
OpenAI o3
LMArena: 1382 Elo
Math & Science
OpenAI o3
MATH: 96.4%
Coding
Claude Opus 4
SWE-bench: 72.5%
Value for Money
Gemini 2.5 Pro
$1.25/M input
Context Window
Llama 4 Scout
10M tokens!
ราคาถูกสุด
DeepSeek V4 Flash
$0.112/M input
หมายเหตุ: คะแนน benchmark อ้างอิงจาก LMArena (lmarena.ai), Artificial Analysis และงานวิจัยที่เผยแพร่ publicly ณ May 2026 — ความถูกต้องของตัวเลขอาจมีความคลาดเคลื่อนเล็กน้อย