Journal LLM Landscape 2026

LLM Landscape กลางปี 2026: ราคา คุณภาพ และวิธีเลือก

Reference การตัดสินใจเลือก LLM กลางปี 2026 — ราคาของ frontier vendors (Anthropic, OpenAI, Google), open-weight ที่ราคาถูกกว่า 30 เท่า (DeepSeek V4, Kimi K2.6, GLM-5, Mistral), economics ของ self-hosting, และ decision framework ห้าคำถาม

คำถามแรกที่คนเริ่ม build LLM product มักถามคือ — “Claude ค่า token เท่าไหร่”

แต่คำถามนี้เล็กเกินกว่าจะนำไปสู่การตัดสินใจที่ดี · คำถามที่สำคัญกว่ามีสี่ข้อ

  • รันที่ไหน — cloud, open-weight via API, หรือ self-host
  • คุณภาพระดับไหนพอสำหรับงาน
  • เมื่อไหร่ลงทุน GPU เองคุ้มกว่าค่า token
  • มี vendor ไหนน่าพิจารณานอกจาก OpenAI กับ Anthropic

บทความนี้คือ reference การตัดสินใจกลางปี 2026 — ราคา benchmark hardware economics และ decision framework ในที่เดียว

Landscape เคลื่อนเร็ว · ราคา cloud ลด ~80% ใน 12 เดือนที่ผ่านมา · ข้อมูลทั้งหมดเป็นภาพรวม พ.ค. 2026 · ยืนยันราคาล่าสุดบนหน้า vendor ก่อนใช้จริง

สามทางเลือกหลัก

ทุกระบบที่ใช้ LLM จัดอยู่ในหนึ่งใน 3 ทางเลือก หรือผสมกัน

1 · Cloud API จาก frontier vendor (Anthropic, OpenAI, Google) — ง่ายที่สุด คุณภาพสูงสุด แพงที่สุด ข้อมูลส่งออกประเทศ

2 · Open-weight ผ่าน API host (Together, Fireworks, Groq, DeepInfra + DeepSeek, Z.AI, Moonshot, Mistral) — ราคาถูกกว่า frontier 5-30 เท่า คุณภาพระดับ 90-95% เปลี่ยน provider ได้

3 · Self-hosted local (RTX, H100, Mac Studio) — privacy เต็ม ไม่มี rate limit แต่ราคาต่อ token แพงกว่า cloud ถ้าไม่ saturate GPU

ระบบ production จริงส่วนใหญ่เป็น hybrid — cloud frontier สำหรับ task ยาก + open-weight cheap สำหรับ task ทั่วไป + self-host สำหรับ data sensitive

ราคา cloud frontier vendors

ราคาต่อ 1 ล้าน token · ตัวเลขในวงเล็บคือบาทประมาณ (1 USD ≈ 35 THB)

Anthropic — Claude family

ModelInput $/MOutput $/MCache hit input
Claude Opus 4.75.00 (175฿)25.00 (875฿)0.50
Claude Sonnet 4.63.00 (105฿)15.00 (525฿)0.30
Claude Haiku 4.51.00 (35฿)5.00 (175฿)0.10

Prompt caching ลด 90% สำหรับ context ที่ส่งซ้ำ · Batch API ลด 50% ทุก rate

OpenAI — GPT-5 family

ModelInput $/MOutput $/M
GPT-5.5 (เม.ย. 2026 flagship)5.00 (175฿)30.00 (1,050฿)
GPT-5.42.50 (87฿)15.00 (525฿)
GPT-5.4 mini0.75 (26฿)4.50 (157฿)
GPT-5.4 nano0.20 (7฿)1.25 (44฿)
o4-mini (reasoning)1.10 (38฿)4.40 (154฿)

Cached input 10% ของ standard

Google — Gemini 3.x family

ModelInput $/MOutput $/M
Gemini 3.1 Pro Preview~2.00 (70฿)~12.00 (420฿)
Gemini 3.5 Flash1.50 (53฿)9.00 (315฿)
Gemini 2.5 Flash-Lite0.10 (3.5฿)0.40 (14฿)

Google ลด free tier เมื่อ เม.ย. 2026 — Pro ไม่อยู่ใน free tier · เหลือแค่ Flash-Lite (100 RPD limit · hobby-only)

Trend ที่ควรรู้ — ราคา GPT-4-class quality ในต้น 2024 อยู่ที่ ~$30/M input · ปลาย 2025 ~$10/M · ตอนนี้ ~$2-3/M สำหรับคุณภาพเทียบเท่า → drop ~10× ใน 2 ปี

Open-weight ทางเลือกถูกกว่า 5-30 เท่า

ในกลางปี 2026 open-weight model “ดีพอ” สำหรับ production workload ส่วนใหญ่ — และราคาถูกกว่า frontier มาก

Top open-weight models (AA Intelligence Index พ.ค. 2026)

ModelLabAA IndexInput $/MOutput $/M
Kimi K2.6Moonshot540.55 (19฿)2.65 (93฿)
MiMo V2.5 ProXiaomi54(API limited)
DeepSeek V4 ProDeepSeek520.435 (15฿)0.87 (30฿)
GLM-5.1Z.AI / Zhipu51~1.00 (35฿)~3.00 (105฿)
Mistral Large 3 (675B MoE)Mistral~500.50 (17฿)1.50 (53฿)

Highlight การเปรียบเทียบ:

  • DeepSeek V4 Pro = 30× ถูกกว่า GPT-5.5 ($0.87 vs $30 output) ที่ AA Index ต่างกัน 8 จุด
  • Kimi K2.6 = 11× ถูกกว่า GPT-5.5 ที่ต่างกัน 6 จุด · เสมอ GPT-5.5 บาง coding benchmark
  • Mistral Large 3 = 20× ถูกกว่า Claude Opus 4.7 ที่ MMLU-Pro 73% (academic strong)

Provider ที่จะเรียกใช้ open-weight model

Providerจุดเด่น + ราคา
DeepSeek (native)ถูกที่สุด · off-peak discount 50-75% · cache hit 10% · V3.2 $0.28/$0.42 · V4-Pro $0.435/$0.87
Together AImodel หลากหลาย · flat rate · Llama 3.3 70B $0.88 · DeepSeek V3 $1.25
Fireworks AIราคาแข่งขัน · มี fine-tuning service · ใกล้เคียง Together
Groqเร็วที่สุด 250-500 tok/s บน LPU chip · open-weight only · Llama 3.3 70B $0.59/$0.79
DeepInfraราคาถูกหลายตัว · DeepSeek V3 $0.27/$1.10
Z.AI / ZhipuGLM family · Flash variants ฟรี · GLM-4.5 $0.60/$2.20
Moonshot PlatformKimi K2.6 · long context 262K · $0.55/$2.65, cached $0.16
Mistral La PlateformeMistral family · Le Chat · Large 3 $0.50/$1.50

ทางเลือกอื่นที่ควรรู้

  • xAI Grok — Grok 4 $3/$15 · Grok 4.1 Fast $0.20/$0.50 · จุดเด่น real-time X data
  • Cohere Command A — $2.50/$10 · 256K context · enterprise focus (on-prem, AWS/Azure/Oracle)
  • Alibaba Qwen3-Max — $0.78/$3.90 · 262K context · API ผ่าน Alibaba Cloud

คุณภาพ vs ราคา — gap แคบที่สุดในประวัติศาสตร์

ในกลางปี 2026 ระยะห่างระหว่าง frontier closed-source กับ best open-weight แคบเพียง 6 จุด บน AA Intelligence Index (60 vs 54)

Scatter chart แสดงคุณภาพ AA Intelligence Index (แกน Y) เทียบกับราคา output ต่อ 1M tokens (แกน X log scale) สำหรับโมเดลกลางปี 2026 closed source (teal): GPT-5.5 ที่ 60/30, Claude Opus 4.7 ที่ 57/25, Gemini 3.1 Pro ที่ 57/12, Gemini 3.5 Flash ที่ 55/9, Claude Sonnet 4.6 ที่ 44/15, Claude Haiku 4.5 ที่ 31/5 · open weight (gold): Kimi K2.6 ที่ 54/2.65, DeepSeek V4 Pro ที่ 52/0.87, GLM-5.1 ที่ 51/3, Mistral Large 3 ที่ 50/1.50
คุณภาพ AA Intelligence Index vs ราคา output $/M (log scale) · มุมซ้ายบน (best value) คือ open-weight ที่คุณภาพระดับเดียวกับ closed flagship ที่ราคาถูกกว่า 5-30 เท่า

หมายเหตุ scatter — บางโมเดลวัดในโหมด reasoning เปิด (GPT-5.5 xhigh, Claude Opus 4.7 Max, Kimi K2.6 Reasoning) บางตัวไม่เปิด (Claude Sonnet 4.6 Non-reasoning) · Sonnet 4.6 ที่ดูเหมือนอยู่ใน “bad value zone” จะขยับขึ้นมากถ้าวัดในโหมด reasoning · ใช้ chart เพื่อเปรียบเทียบ rough ไม่ใช่ benchmark ตัดสินขาด

Frontier band (LMArena Elo พ.ค. 2026) — Claude Opus 4.6, Gemini 3.1 Pro Preview, GPT-5/5.5, Grok 4, DeepSeek V3.2/V4 อยู่ใน band เดียวกัน (Elo 1450-1561) · statistically tied ที่ top tier

Caveat สำคัญ — long context ไม่เท่ากับที่โฆษณา

ทุก frontier vendor โฆษณา 1M token context แต่ผลจริงต่างกันมาก · MRCR v2 8-needle ที่ 1M token: Claude Opus 4.6 = 76% · Gemini 3.1 Pro = 26.3% · ที่ 128K ทั้งคู่ ~85% → effective context ≠ advertised context ผ่าน 200K · งานที่ต้องการ context ยาวต้อง test กับ workload จริง

Benchmark ตาม use case: SWE-bench Verified (coding · GPT-5.5 88.7%, Claude Opus 4.7 87.6%) · GPQA Diamond (reasoning · Gemini 3.1 Pro 94.1%) · MRCR v2 (long context · Claude leads) · Terminal-Bench 2.0 (agentic · GPT-5.5 82.7%)

Self-hosting: เมื่อไหร่คุ้ม?

Hardware tier ปัจจุบัน

HardwareVRAMราคา USDLlama 70B Q4 tok/s
RTX 409024 GB~2,4708-18 (partial offload)
RTX 509032 GBMSRP 1,999 / street 3-4Kเร็วกว่า 4090 ยัง offload
RTX 6000 Ada48 GB~6,80015-25 single card
Mac Studio M3 Ultra 96GB96 GB unified~5,4998-11
Mac Studio M3 Ultra 256GB+256-512 GB9,499-14,000รัน DeepSeek V3 671B Q4 ได้
H100 80GB SXM80 GB HBM325-30K buy · $1.90-2.49/hr cloud40-60 single / 1000s batched
H200 141GB141 GB30-40K · $3.50/hr cloudสูงกว่า H100
B200 192GB192 GB40K+ · $5-6/hr cloud~2× H100

โมเดลที่รันได้จริงในแต่ละ tier

  • Single RTX 4090 → Qwen3 32B dense (Q4 ใช้ ~20GB)
  • Dual RTX 4090 / RTX 6000 Ada → Llama 3.3 70B Q4 (~40GB)
  • Mac Studio M3 Ultra 96GB → Llama 3.3 70B FP16 หรือ Q8
  • Mac Studio M3 Ultra 256GB+ → DeepSeek V3 671B Q4 (rare ที่บ้าน)
  • 8× H100 (640GB total) → DeepSeek V4 Pro 1.6T MoE — frontier open-weight ที่ self-host ได้จริง

Breakeven จริง — Thai context

Scenario: Llama 3.3 70B Q4 บน RTX 4090 vs Together AI $0.88/M

  • CapEx: RTX 4090 + workstation ~$3,970 → amortize 3 ปี = $110/mo
  • Electricity: ~180 kWh/mo × 3.95 THB/kWh (PEA พ.ค. 2026) = ~700฿ ≈ $20/mo
  • Total: ~$130/month
  • Throughput: ~15 tok/s × 8 ชม./วัน = ~13M tok/month

จ่าย Together AI: 13M × $0.88 = $11/month → cloud ถูกกว่า self-host ~12 เท่า

Bar chart เปรียบเทียบค่าใช้จ่ายต่อเดือน 3 volume tier · 10M tokens/month: cloud (Together AI Llama 70B) $9 vs self-host RTX 4090 $130 (cloud ถูกกว่า 14 เท่า) · 100M tokens/month: cloud $88 vs Mac Studio M3 Ultra $200 (cloud ยังถูกกว่า) · 1B tokens/month: cloud $880 vs 8x H100 self-host owned amortized $300 (self-host ถูกกว่า 3 เท่า)
$/month ที่ volume ต่างกัน · cloud ชนะที่ volume ต่ำ-กลาง · self-host คุ้มเมื่อ >500M tok/month และ saturate hardware ได้

Insight ที่ surprising — ที่ prosumer scale (single GPU, single user) cloud จริง ๆ ถูกกว่า self-host ในแง่ราคาต่อ token เพราะ GPU underutilized · self-host ไม่ใช่ การประหยัดเงิน แต่เป็นการแลกเพื่อได้:

  • Privacy เต็ม (ไม่ส่งข้อมูลออก)
  • ไม่มี rate limit
  • Latency คงที่
  • Independence จาก vendor pricing change

เมื่อ self-host ชนะ cost จริง

  • Small team (5-20 users) → Mac Studio M3 Ultra รัน Qwen3 32B แทน SaaS license ($20/seat × 20 = $400/mo)
  • Enterprise (>500M tok/mo) → 8× H100 batched ที่ 4,800 tok/s ผ่าน TensorRT-LLM · cloud equivalent $11K+/mo

ต้นทุนที่ซ่อน — ราคา hardware ไม่ใช่ราคาทั้งหมด ต้องคิดเพิ่ม

  • เวลา DevOps (driver updates, CUDA cycle, llama.cpp/vLLM versions ทุก 2-4 สัปดาห์)
  • ไม่มี SLA · ไฟตก = service down
  • Update treadmill · GPU วันนี้อาจไม่พอกับ frontier ปีหน้า
  • Quantization tuning (Q4 vs Q5 vs Q8 มี regression ต้อง eval)
  • GPU underutilization · single user ใช้ <20% capacity ของ H100
  • Memory bandwidth ceiling (M3 Ultra ~800 GB/s vs H100 3.35 TB/s)
  • Compliance (PDPA, GDPR) ไม่หาย ไม่ว่ารันที่ไหน

คำถามห้าข้อก่อนเลือก

1. Volume เท่าไหร่ต่อเดือน?

  • < 10M → cloud frontier (cost ไม่กระทบ)
  • 10M-100M → open-weight via API
  • 500M เสถียร → consider self-host หรือ enterprise reserved

2. มี data ที่ห้ามส่งออกไหม?

  • ใช่ (financial, healthcare, government) → self-host หรือ private cloud (Bedrock, Azure OpenAI)
  • ไม่ → cloud OK

3. ต้องการคุณภาพระดับไหน?

  • Frontier reasoning/coding → GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro
  • “ดีพอ” ทั่วไป → open-weight (DeepSeek V4 Pro, Kimi K2.6) ที่ราคา 1/10-1/30
  • เร็ว ถูก (classify/extract) → Haiku 4.5, GPT nano, Flash-Lite

4. Latency requirement?

  • < 500ms consistent → Groq หรือ self-host
  • 1-5s OK → standard cloud

5. มีคน DevOps ไหม?

  • ไม่ → cloud (รวม Groq)
  • มี → self-host พิจารณาได้

Default ถ้ายังไม่ชัด — เริ่มที่ open-weight via API (Together / Groq / DeepInfra) เพราะ migrate ออกง่ายที่สุด

บทสรุป

ภาพรวมกลางปี 2026:

  • ราคา cloud ลดลง ~80% ในปีเดียว — งานที่เคยทำไม่คุ้มตอนนี้คุ้มแล้ว
  • Open-weight ปิด gap คุณภาพ — ใช้แทน frontier ได้ที่ราคา 1/10 ถึง 1/30 สำหรับงานส่วนใหญ่
  • Self-host ที่ prosumer scale แพ้ cloud ในแง่ $/token — ชนะแค่ที่ privacy, latency, batched enterprise
  • Landscape rotate เร็ว — โมเดลที่ “ดีที่สุด” เปลี่ยนทุก 3-6 เดือน · Llama 4, Qwen 3, DeepSeek V3 ตอนนี้ถูกแซงโดย Kimi K2.6, DeepSeek V4 Pro, MiMo V2.5 Pro แล้ว

เป้าหมายของการเลือก LLM ไม่ใช่ “ใช้โมเดลแพงที่สุด” หรือ “self-host ทุกอย่างเพื่อ control” แต่คือ “เลือกให้พอดีกับ workload, budget, และ constraint ของตัวเอง” · คำตอบมักจะเป็น “ใช้ open-weight via API ก่อน · ถ้าดีค่อย upgrade ไป frontier หรือ self-host”

ขอบเขตของบทความ — บทความนี้พูดถึงแค่ราคาและคุณภาพ · แกนอื่นที่จะเขียนแยก: Data security ในระบบ LLM (PII, data residency, prompt injection, audit trail) · ส่วนแกน “เลือกระดับของระบบ LLM” (raw / workflow / agent) อยู่ใน Raw LLM, Workflow, Agent แล้ว — สามแกนนี้ตัดสินใจอิสระจากกัน


แหล่งอ้างอิงหลัก: Anthropic Pricing · OpenAI Pricing · Google AI Pricing · Artificial Analysis Intelligence Index · LMArena Leaderboard · DeepSeek API · Z.AI / Zhipu · Together AI · Groq · Mistral AI · BestValueGPU price tracker · ราคาทั้งหมดเป็นภาพรวม พ.ค. 2026