🤖 AI Models Benchmark 2026

เปรียบเทียบความฉลาด • MMLU, MATH, HumanEval, LiveBench, LMArena • ข้อมูลจาก lmarena.ai & แหล่งข้อมูลสาธารณะ

📡 Overall Performance (Radar)

OpenAI o3

Claude Opus 4

Gemini 2.5 Pro

Grok 4.3

DeepSeek V4 Flash

Llama 4 Scout

Mistral Nemo

📊 Overall Score (LMArena Elo)

📚 MMLU (Multi-task Language Understanding)

🔢 MATH (Mathematical Reasoning)

💻 HumanEval (Coding)

🧪 LiveBench (Real-world Tasks)

🏆 สรุปผู้นำแต่ละด้าน

Overall Champion

OpenAI o3

LMArena: 1382 Elo

Math & Science

OpenAI o3

MATH: 96.4%

Coding

Claude Opus 4

SWE-bench: 72.5%

Value for Money

Gemini 2.5 Pro

$1.25/M input

Context Window

Llama 4 Scout

10M tokens!

ราคาถูกสุด

DeepSeek V4 Flash

$0.112/M input

หมายเหตุ: คะแนน benchmark อ้างอิงจาก LMArena (lmarena.ai), Artificial Analysis และงานวิจัยที่เผยแพร่ publicly ณ May 2026 — ความถูกต้องของตัวเลขอาจมีความคลาดเคลื่อนเล็กน้อย