Journal LLM Landscape 2026
LLM Landscape กลางปี 2026: ราคา คุณภาพ และวิธีเลือก
Reference การตัดสินใจเลือก LLM กลางปี 2026 — ราคาของ frontier vendors (Anthropic, OpenAI, Google), open-weight ที่ราคาถูกกว่า 30 เท่า (DeepSeek V4, Kimi K2.6, GLM-5, Mistral), economics ของ self-hosting, และ decision framework ห้าคำถาม
คำถามแรกที่คนเริ่ม build LLM product มักถามคือ — “Claude ค่า token เท่าไหร่”
แต่คำถามนี้เล็กเกินกว่าจะนำไปสู่การตัดสินใจที่ดี · คำถามที่สำคัญกว่ามีสี่ข้อ
- รันที่ไหน — cloud, open-weight via API, หรือ self-host
- คุณภาพระดับไหนพอสำหรับงาน
- เมื่อไหร่ลงทุน GPU เองคุ้มกว่าค่า token
- มี vendor ไหนน่าพิจารณานอกจาก OpenAI กับ Anthropic
บทความนี้คือ reference การตัดสินใจกลางปี 2026 — ราคา benchmark hardware economics และ decision framework ในที่เดียว
Landscape เคลื่อนเร็ว · ราคา cloud ลด ~80% ใน 12 เดือนที่ผ่านมา · ข้อมูลทั้งหมดเป็นภาพรวม พ.ค. 2026 · ยืนยันราคาล่าสุดบนหน้า vendor ก่อนใช้จริง
สามทางเลือกหลัก
ทุกระบบที่ใช้ LLM จัดอยู่ในหนึ่งใน 3 ทางเลือก หรือผสมกัน
1 · Cloud API จาก frontier vendor (Anthropic, OpenAI, Google) — ง่ายที่สุด คุณภาพสูงสุด แพงที่สุด ข้อมูลส่งออกประเทศ
2 · Open-weight ผ่าน API host (Together, Fireworks, Groq, DeepInfra + DeepSeek, Z.AI, Moonshot, Mistral) — ราคาถูกกว่า frontier 5-30 เท่า คุณภาพระดับ 90-95% เปลี่ยน provider ได้
3 · Self-hosted local (RTX, H100, Mac Studio) — privacy เต็ม ไม่มี rate limit แต่ราคาต่อ token แพงกว่า cloud ถ้าไม่ saturate GPU
ระบบ production จริงส่วนใหญ่เป็น hybrid — cloud frontier สำหรับ task ยาก + open-weight cheap สำหรับ task ทั่วไป + self-host สำหรับ data sensitive
ราคา cloud frontier vendors
ราคาต่อ 1 ล้าน token · ตัวเลขในวงเล็บคือบาทประมาณ (1 USD ≈ 35 THB)
Anthropic — Claude family
| Model | Input $/M | Output $/M | Cache hit input |
|---|---|---|---|
| Claude Opus 4.7 | 5.00 (175฿) | 25.00 (875฿) | 0.50 |
| Claude Sonnet 4.6 | 3.00 (105฿) | 15.00 (525฿) | 0.30 |
| Claude Haiku 4.5 | 1.00 (35฿) | 5.00 (175฿) | 0.10 |
Prompt caching ลด 90% สำหรับ context ที่ส่งซ้ำ · Batch API ลด 50% ทุก rate
OpenAI — GPT-5 family
| Model | Input $/M | Output $/M |
|---|---|---|
| GPT-5.5 (เม.ย. 2026 flagship) | 5.00 (175฿) | 30.00 (1,050฿) |
| GPT-5.4 | 2.50 (87฿) | 15.00 (525฿) |
| GPT-5.4 mini | 0.75 (26฿) | 4.50 (157฿) |
| GPT-5.4 nano | 0.20 (7฿) | 1.25 (44฿) |
| o4-mini (reasoning) | 1.10 (38฿) | 4.40 (154฿) |
Cached input 10% ของ standard
Google — Gemini 3.x family
| Model | Input $/M | Output $/M |
|---|---|---|
| Gemini 3.1 Pro Preview | ~2.00 (70฿) | ~12.00 (420฿) |
| Gemini 3.5 Flash | 1.50 (53฿) | 9.00 (315฿) |
| Gemini 2.5 Flash-Lite | 0.10 (3.5฿) | 0.40 (14฿) |
Google ลด free tier เมื่อ เม.ย. 2026 — Pro ไม่อยู่ใน free tier · เหลือแค่ Flash-Lite (100 RPD limit · hobby-only)
Trend ที่ควรรู้ — ราคา GPT-4-class quality ในต้น 2024 อยู่ที่ ~$30/M input · ปลาย 2025 ~$10/M · ตอนนี้ ~$2-3/M สำหรับคุณภาพเทียบเท่า → drop ~10× ใน 2 ปี
Open-weight ทางเลือกถูกกว่า 5-30 เท่า
ในกลางปี 2026 open-weight model “ดีพอ” สำหรับ production workload ส่วนใหญ่ — และราคาถูกกว่า frontier มาก
Top open-weight models (AA Intelligence Index พ.ค. 2026)
| Model | Lab | AA Index | Input $/M | Output $/M |
|---|---|---|---|---|
| Kimi K2.6 | Moonshot | 54 | 0.55 (19฿) | 2.65 (93฿) |
| MiMo V2.5 Pro | Xiaomi | 54 | (API limited) | — |
| DeepSeek V4 Pro | DeepSeek | 52 | 0.435 (15฿) | 0.87 (30฿) |
| GLM-5.1 | Z.AI / Zhipu | 51 | ~1.00 (35฿) | ~3.00 (105฿) |
| Mistral Large 3 (675B MoE) | Mistral | ~50 | 0.50 (17฿) | 1.50 (53฿) |
Highlight การเปรียบเทียบ:
- DeepSeek V4 Pro = 30× ถูกกว่า GPT-5.5 ($0.87 vs $30 output) ที่ AA Index ต่างกัน 8 จุด
- Kimi K2.6 = 11× ถูกกว่า GPT-5.5 ที่ต่างกัน 6 จุด · เสมอ GPT-5.5 บาง coding benchmark
- Mistral Large 3 = 20× ถูกกว่า Claude Opus 4.7 ที่ MMLU-Pro 73% (academic strong)
Provider ที่จะเรียกใช้ open-weight model
| Provider | จุดเด่น + ราคา |
|---|---|
| DeepSeek (native) | ถูกที่สุด · off-peak discount 50-75% · cache hit 10% · V3.2 $0.28/$0.42 · V4-Pro $0.435/$0.87 |
| Together AI | model หลากหลาย · flat rate · Llama 3.3 70B $0.88 · DeepSeek V3 $1.25 |
| Fireworks AI | ราคาแข่งขัน · มี fine-tuning service · ใกล้เคียง Together |
| Groq | เร็วที่สุด 250-500 tok/s บน LPU chip · open-weight only · Llama 3.3 70B $0.59/$0.79 |
| DeepInfra | ราคาถูกหลายตัว · DeepSeek V3 $0.27/$1.10 |
| Z.AI / Zhipu | GLM family · Flash variants ฟรี · GLM-4.5 $0.60/$2.20 |
| Moonshot Platform | Kimi K2.6 · long context 262K · $0.55/$2.65, cached $0.16 |
| Mistral La Plateforme | Mistral family · Le Chat · Large 3 $0.50/$1.50 |
ทางเลือกอื่นที่ควรรู้
- xAI Grok — Grok 4 $3/$15 · Grok 4.1 Fast $0.20/$0.50 · จุดเด่น real-time X data
- Cohere Command A — $2.50/$10 · 256K context · enterprise focus (on-prem, AWS/Azure/Oracle)
- Alibaba Qwen3-Max — $0.78/$3.90 · 262K context · API ผ่าน Alibaba Cloud
คุณภาพ vs ราคา — gap แคบที่สุดในประวัติศาสตร์
ในกลางปี 2026 ระยะห่างระหว่าง frontier closed-source กับ best open-weight แคบเพียง 6 จุด บน AA Intelligence Index (60 vs 54)
หมายเหตุ scatter — บางโมเดลวัดในโหมด reasoning เปิด (GPT-5.5 xhigh, Claude Opus 4.7 Max, Kimi K2.6 Reasoning) บางตัวไม่เปิด (Claude Sonnet 4.6 Non-reasoning) · Sonnet 4.6 ที่ดูเหมือนอยู่ใน “bad value zone” จะขยับขึ้นมากถ้าวัดในโหมด reasoning · ใช้ chart เพื่อเปรียบเทียบ rough ไม่ใช่ benchmark ตัดสินขาด
Frontier band (LMArena Elo พ.ค. 2026) — Claude Opus 4.6, Gemini 3.1 Pro Preview, GPT-5/5.5, Grok 4, DeepSeek V3.2/V4 อยู่ใน band เดียวกัน (Elo 1450-1561) · statistically tied ที่ top tier
Caveat สำคัญ — long context ไม่เท่ากับที่โฆษณา
ทุก frontier vendor โฆษณา 1M token context แต่ผลจริงต่างกันมาก · MRCR v2 8-needle ที่ 1M token: Claude Opus 4.6 = 76% · Gemini 3.1 Pro = 26.3% · ที่ 128K ทั้งคู่ ~85% → effective context ≠ advertised context ผ่าน 200K · งานที่ต้องการ context ยาวต้อง test กับ workload จริง
Benchmark ตาม use case: SWE-bench Verified (coding · GPT-5.5 88.7%, Claude Opus 4.7 87.6%) · GPQA Diamond (reasoning · Gemini 3.1 Pro 94.1%) · MRCR v2 (long context · Claude leads) · Terminal-Bench 2.0 (agentic · GPT-5.5 82.7%)
Self-hosting: เมื่อไหร่คุ้ม?
Hardware tier ปัจจุบัน
| Hardware | VRAM | ราคา USD | Llama 70B Q4 tok/s |
|---|---|---|---|
| RTX 4090 | 24 GB | ~2,470 | 8-18 (partial offload) |
| RTX 5090 | 32 GB | MSRP 1,999 / street 3-4K | เร็วกว่า 4090 ยัง offload |
| RTX 6000 Ada | 48 GB | ~6,800 | 15-25 single card |
| Mac Studio M3 Ultra 96GB | 96 GB unified | ~5,499 | 8-11 |
| Mac Studio M3 Ultra 256GB+ | 256-512 GB | 9,499-14,000 | รัน DeepSeek V3 671B Q4 ได้ |
| H100 80GB SXM | 80 GB HBM3 | 25-30K buy · $1.90-2.49/hr cloud | 40-60 single / 1000s batched |
| H200 141GB | 141 GB | 30-40K · $3.50/hr cloud | สูงกว่า H100 |
| B200 192GB | 192 GB | 40K+ · $5-6/hr cloud | ~2× H100 |
โมเดลที่รันได้จริงในแต่ละ tier
- Single RTX 4090 → Qwen3 32B dense (Q4 ใช้ ~20GB)
- Dual RTX 4090 / RTX 6000 Ada → Llama 3.3 70B Q4 (~40GB)
- Mac Studio M3 Ultra 96GB → Llama 3.3 70B FP16 หรือ Q8
- Mac Studio M3 Ultra 256GB+ → DeepSeek V3 671B Q4 (rare ที่บ้าน)
- 8× H100 (640GB total) → DeepSeek V4 Pro 1.6T MoE — frontier open-weight ที่ self-host ได้จริง
Breakeven จริง — Thai context
Scenario: Llama 3.3 70B Q4 บน RTX 4090 vs Together AI $0.88/M
- CapEx: RTX 4090 + workstation ~$3,970 → amortize 3 ปี = $110/mo
- Electricity: ~180 kWh/mo × 3.95 THB/kWh (PEA พ.ค. 2026) = ~700฿ ≈ $20/mo
- Total: ~$130/month
- Throughput: ~15 tok/s × 8 ชม./วัน = ~13M tok/month
จ่าย Together AI: 13M × $0.88 = $11/month → cloud ถูกกว่า self-host ~12 เท่า
Insight ที่ surprising — ที่ prosumer scale (single GPU, single user) cloud จริง ๆ ถูกกว่า self-host ในแง่ราคาต่อ token เพราะ GPU underutilized · self-host ไม่ใช่ การประหยัดเงิน แต่เป็นการแลกเพื่อได้:
- Privacy เต็ม (ไม่ส่งข้อมูลออก)
- ไม่มี rate limit
- Latency คงที่
- Independence จาก vendor pricing change
เมื่อ self-host ชนะ cost จริง
- Small team (5-20 users) → Mac Studio M3 Ultra รัน Qwen3 32B แทน SaaS license ($20/seat × 20 = $400/mo)
- Enterprise (>500M tok/mo) → 8× H100 batched ที่ 4,800 tok/s ผ่าน TensorRT-LLM · cloud equivalent $11K+/mo
ต้นทุนที่ซ่อน — ราคา hardware ไม่ใช่ราคาทั้งหมด ต้องคิดเพิ่ม
- เวลา DevOps (driver updates, CUDA cycle, llama.cpp/vLLM versions ทุก 2-4 สัปดาห์)
- ไม่มี SLA · ไฟตก = service down
- Update treadmill · GPU วันนี้อาจไม่พอกับ frontier ปีหน้า
- Quantization tuning (Q4 vs Q5 vs Q8 มี regression ต้อง eval)
- GPU underutilization · single user ใช้ <20% capacity ของ H100
- Memory bandwidth ceiling (M3 Ultra ~800 GB/s vs H100 3.35 TB/s)
- Compliance (PDPA, GDPR) ไม่หาย ไม่ว่ารันที่ไหน
คำถามห้าข้อก่อนเลือก
1. Volume เท่าไหร่ต่อเดือน?
- < 10M → cloud frontier (cost ไม่กระทบ)
- 10M-100M → open-weight via API
500M เสถียร → consider self-host หรือ enterprise reserved
2. มี data ที่ห้ามส่งออกไหม?
- ใช่ (financial, healthcare, government) → self-host หรือ private cloud (Bedrock, Azure OpenAI)
- ไม่ → cloud OK
3. ต้องการคุณภาพระดับไหน?
- Frontier reasoning/coding → GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro
- “ดีพอ” ทั่วไป → open-weight (DeepSeek V4 Pro, Kimi K2.6) ที่ราคา 1/10-1/30
- เร็ว ถูก (classify/extract) → Haiku 4.5, GPT nano, Flash-Lite
4. Latency requirement?
- < 500ms consistent → Groq หรือ self-host
- 1-5s OK → standard cloud
5. มีคน DevOps ไหม?
- ไม่ → cloud (รวม Groq)
- มี → self-host พิจารณาได้
Default ถ้ายังไม่ชัด — เริ่มที่ open-weight via API (Together / Groq / DeepInfra) เพราะ migrate ออกง่ายที่สุด
บทสรุป
ภาพรวมกลางปี 2026:
- ราคา cloud ลดลง ~80% ในปีเดียว — งานที่เคยทำไม่คุ้มตอนนี้คุ้มแล้ว
- Open-weight ปิด gap คุณภาพ — ใช้แทน frontier ได้ที่ราคา 1/10 ถึง 1/30 สำหรับงานส่วนใหญ่
- Self-host ที่ prosumer scale แพ้ cloud ในแง่ $/token — ชนะแค่ที่ privacy, latency, batched enterprise
- Landscape rotate เร็ว — โมเดลที่ “ดีที่สุด” เปลี่ยนทุก 3-6 เดือน · Llama 4, Qwen 3, DeepSeek V3 ตอนนี้ถูกแซงโดย Kimi K2.6, DeepSeek V4 Pro, MiMo V2.5 Pro แล้ว
เป้าหมายของการเลือก LLM ไม่ใช่ “ใช้โมเดลแพงที่สุด” หรือ “self-host ทุกอย่างเพื่อ control” แต่คือ “เลือกให้พอดีกับ workload, budget, และ constraint ของตัวเอง” · คำตอบมักจะเป็น “ใช้ open-weight via API ก่อน · ถ้าดีค่อย upgrade ไป frontier หรือ self-host”
ขอบเขตของบทความ — บทความนี้พูดถึงแค่ราคาและคุณภาพ · แกนอื่นที่จะเขียนแยก: Data security ในระบบ LLM (PII, data residency, prompt injection, audit trail) · ส่วนแกน “เลือกระดับของระบบ LLM” (raw / workflow / agent) อยู่ใน Raw LLM, Workflow, Agent แล้ว — สามแกนนี้ตัดสินใจอิสระจากกัน
แหล่งอ้างอิงหลัก: Anthropic Pricing · OpenAI Pricing · Google AI Pricing · Artificial Analysis Intelligence Index · LMArena Leaderboard · DeepSeek API · Z.AI / Zhipu · Together AI · Groq · Mistral AI · BestValueGPU price tracker · ราคาทั้งหมดเป็นภาพรวม พ.ค. 2026