Journal LLM Landscape 2026

LLM Landscape กลางปี 2026: ราคา คุณภาพ และวิธีเลือก

Reference การตัดสินใจเลือก LLM กลางปี 2026 — ราคาของ frontier vendors (Anthropic, OpenAI, Google), open-weight ที่ราคาถูกกว่า 30 เท่า (DeepSeek V4, Kimi K2.6, GLM-5, Mistral), economics ของ self-hosting, และ decision framework ห้าคำถาม

May 25, 2026

คำถามแรกที่คนเริ่ม build LLM product มักถามคือ — “Claude ค่า token เท่าไหร่”

แต่คำถามนี้เล็กเกินกว่าจะนำไปสู่การตัดสินใจที่ดี · คำถามที่สำคัญกว่ามีสี่ข้อ

รันที่ไหน — cloud, open-weight via API, หรือ self-host
คุณภาพระดับไหนพอสำหรับงาน
เมื่อไหร่ลงทุน GPU เองคุ้มกว่าค่า token
มี vendor ไหนน่าพิจารณานอกจาก OpenAI กับ Anthropic

บทความนี้คือ reference การตัดสินใจกลางปี 2026 — ราคา benchmark hardware economics และ decision framework ในที่เดียว

Landscape เคลื่อนเร็ว · ราคา cloud ลด ~80% ใน 12 เดือนที่ผ่านมา · ข้อมูลทั้งหมดเป็นภาพรวม พ.ค. 2026 · ยืนยันราคาล่าสุดบนหน้า vendor ก่อนใช้จริง

สามทางเลือกหลัก

ทุกระบบที่ใช้ LLM จัดอยู่ในหนึ่งใน 3 ทางเลือก หรือผสมกัน

1 · Cloud API จาก frontier vendor (Anthropic, OpenAI, Google) — ง่ายที่สุด คุณภาพสูงสุด แพงที่สุด ข้อมูลส่งออกประเทศ

2 · Open-weight ผ่าน API host (Together, Fireworks, Groq, DeepInfra + DeepSeek, Z.AI, Moonshot, Mistral) — ราคาถูกกว่า frontier 5-30 เท่า คุณภาพระดับ 90-95% เปลี่ยน provider ได้

3 · Self-hosted local (RTX, H100, Mac Studio) — privacy เต็ม ไม่มี rate limit แต่ราคาต่อ token แพงกว่า cloud ถ้าไม่ saturate GPU

ระบบ production จริงส่วนใหญ่เป็น hybrid — cloud frontier สำหรับ task ยาก + open-weight cheap สำหรับ task ทั่วไป + self-host สำหรับ data sensitive

ราคา cloud frontier vendors

ราคาต่อ 1 ล้าน token หน่วย USD (1 USD ≈ 35 THB)

Anthropic — Claude family

Model	Input	Output	Cache hit
Claude Opus 4.7	`$5.00 (175฿)`	`$25.00 (875฿)`	`$0.50 (17฿)`
Claude Sonnet 4.6	`$3.00 (105฿)`	`$15.00 (525฿)`	`$0.30 (10฿)`
Claude Haiku 4.5	`$1.00 (35฿)`	`$5.00 (175฿)`	`$0.10 (3฿)`

Prompt caching ลด 90% สำหรับ context ที่ส่งซ้ำ · Batch API ลด 50% ทุก rate

OpenAI — GPT-5 family

Model	Input	Output
GPT-5.5 (flagship เม.ย. 2026)	`$5.00 (175฿)`	`$30.00 (1,050฿)`
GPT-5.4	`$2.50 (87฿)`	`$15.00 (525฿)`
GPT-5.4 mini	`$0.75 (26฿)`	`$4.50 (157฿)`
GPT-5.4 nano	`$0.20 (7฿)`	`$1.25 (44฿)`
o4-mini (reasoning)	`$1.10 (38฿)`	`$4.40 (154฿)`

Cached input 10% ของ standard

Google — Gemini 3.x family

Model	Input	Output
Gemini 3.1 Pro Preview	`~$2.00 (70฿)`	`~$12.00 (420฿)`
Gemini 3.5 Flash	`$1.50 (52฿)`	`$9.00 (315฿)`
Gemini 2.5 Flash-Lite	`$0.10 (3฿)`	`$0.40 (14฿)`

Google ลด free tier เมื่อ เม.ย. 2026 — Pro ไม่อยู่ใน free tier · เหลือแค่ Flash-Lite (100 RPD limit · hobby-only)

Trend ที่ควรรู้ — ราคา GPT-4-class quality ในต้น 2024 อยู่ที่ ~$30/M input · ปลาย 2025 ~$10/M · ตอนนี้ ~$2-3/M สำหรับคุณภาพเทียบเท่า → drop ~10× ใน 2 ปี

Open-weight ทางเลือกถูกกว่า 5-30 เท่า

ในกลางปี 2026 open-weight model “ดีพอ” สำหรับ production workload ส่วนใหญ่ — และราคาถูกกว่า frontier มาก

Top open-weight models (AA Intelligence Index พ.ค. 2026)

Model	Lab	AA	Input	Output
Kimi K2.6	Moonshot	54	`$0.55 (19฿)`	`$2.65 (93฿)`
MiMo V2.5 Pro	Xiaomi	54	API limited	—
DeepSeek V4 Pro	DeepSeek	52	`$0.435 (15฿)`	`$0.87 (30฿)`
GLM-5.1	Z.AI / Zhipu	51	`~$1.00 (35฿)`	`~$3.00 (105฿)`
Mistral Large 3	Mistral	~50	`$0.50 (17฿)`	`$1.50 (52฿)`

Highlight การเปรียบเทียบ:

DeepSeek V4 Pro = 30× ถูกกว่า GPT-5.5 ($0.87 vs $30 output) ที่ AA Index ต่างกัน 8 จุด
Kimi K2.6 = 11× ถูกกว่า GPT-5.5 ที่ต่างกัน 6 จุด · เสมอ GPT-5.5 บาง coding benchmark
Mistral Large 3 = 20× ถูกกว่า Claude Opus 4.7 ที่ MMLU-Pro 73% (academic strong)

Provider ที่จะเรียกใช้ open-weight model

Provider	จุดเด่น	ราคาหลัก
DeepSeek (native)	ถูกที่สุด · cache `$0.003625`	V4-Pro `$0.435/$0.87`
Together AI	model หลากหลาย · flat rate	Llama 70B `$0.88`
Fireworks AI	ราคาแข่งขัน · fine-tuning	ใกล้เคียง Together
Groq	เร็วที่สุด 250-500 tok/s · LPU	Llama 70B `$0.59/$0.79`
DeepInfra	ราคาถูกหลายตัว	DeepSeek V3 `$0.27/$1.10`
Z.AI / Zhipu	GLM family · Flash ฟรี	GLM-4.5 `$0.60/$2.20`
Moonshot	Kimi K2.6 · context 262K	`$0.55/$2.65` · cached `$0.16`
Mistral	Le Chat platform	Large 3 `$0.50/$1.50`

DeepSeek 75% off ถาวร — 22 พ.ค. 2026 DeepSeek ประกาศ lock ราคา V4-Pro ที่ลดจาก list price $1.74/$3.48 ลง 75% ให้กลายเป็น standard ไม่หมดอายุ 31 พ.ค. ตามแผนเดิม

ทางเลือกอื่นที่ควรรู้

xAI Grok — Grok 4 $3/$15 · Grok 4.1 Fast $0.20/$0.50 · จุดเด่น real-time X data
Cohere Command A — $2.50/$10 · 256K context · enterprise focus (on-prem, AWS/Azure/Oracle)
Alibaba Qwen3-Max — $0.78/$3.90 · 262K context · API ผ่าน Alibaba Cloud

คุณภาพ vs ราคา — gap แคบที่สุดในประวัติศาสตร์

ในกลางปี 2026 ระยะห่างระหว่าง frontier closed-source กับ best open-weight แคบเพียง 6 จุด บน AA Intelligence Index (60 vs 54)

Scatter chart แสดงคุณภาพ AA Intelligence Index (แกน Y) เทียบกับราคา output ต่อ 1M tokens (แกน X log scale) สำหรับโมเดลกลางปี 2026 closed source (teal): GPT-5.5 ที่ 60/30, Claude Opus 4.7 ที่ 57/25, Gemini 3.1 Pro ที่ 57/12, Gemini 3.5 Flash ที่ 55/9, Claude Sonnet 4.6 ที่ 44/15, Claude Haiku 4.5 ที่ 31/5 · open weight (gold): Kimi K2.6 ที่ 54/2.65, DeepSeek V4 Pro ที่ 52/0.87, GLM-5.1 ที่ 51/3, Mistral Large 3 ที่ 50/1.50 — คุณภาพ AA Intelligence Index vs ราคา output $/M (log scale) · มุมซ้ายบน (best value) คือ open-weight ที่คุณภาพระดับเดียวกับ closed flagship ที่ราคาถูกกว่า 5-30 เท่า

หมายเหตุ scatter — บางโมเดลวัดในโหมด reasoning เปิด (GPT-5.5 xhigh, Claude Opus 4.7 Max, Kimi K2.6 Reasoning) บางตัวไม่เปิด (Claude Sonnet 4.6 Non-reasoning) · Sonnet 4.6 ที่ดูเหมือนอยู่ใน “bad value zone” จะขยับขึ้นมากถ้าวัดในโหมด reasoning · ใช้ chart เพื่อเปรียบเทียบ rough ไม่ใช่ benchmark ตัดสินขาด

Frontier band (LMArena Elo พ.ค. 2026) — Claude Opus 4.6, Gemini 3.1 Pro Preview, GPT-5/5.5, Grok 4, DeepSeek V3.2/V4 อยู่ใน band เดียวกัน (Elo 1450-1561) · statistically tied ที่ top tier

Caveat สำคัญ — long context ไม่เท่ากับที่โฆษณา

ทุก frontier vendor โฆษณา 1M token context แต่ผลจริงต่างกันมาก · MRCR v2 8-needle ที่ 1M token: Claude Opus 4.6 = 76% · Gemini 3.1 Pro = 26.3% · ที่ 128K ทั้งคู่ ~85% → effective context ≠ advertised context ผ่าน 200K · งานที่ต้องการ context ยาวต้อง test กับ workload จริง

Benchmark ตาม use case: SWE-bench Verified (coding · GPT-5.5 88.7%, Claude Opus 4.7 87.6%) · GPQA Diamond (reasoning · Gemini 3.1 Pro 94.1%) · MRCR v2 (long context · Claude leads) · Terminal-Bench 2.0 (agentic · GPT-5.5 82.7%)

Self-hosting: เมื่อไหร่คุ้ม?

Hardware tier ปัจจุบัน

Hardware	VRAM	Price USD	70B Q4 tok/s
RTX 4090	24 GB	`~$2,470`	8-18 offload
RTX 5090	32 GB	`$3-4K` street	ยังต้อง offload
RTX 6000 Ada	48 GB	`~$6,800`	15-25
Mac Studio M3 Ultra 96GB	96 GB	`~$5,499`	8-11
Mac Studio M3 Ultra 256GB+	256-512 GB	`$9.5-14K`	671B Q4 ได้
H100 80GB SXM	80 GB	`$25-30K` · `$1.90/hr`	40-60 / 1000s batched
H200 141GB	141 GB	`$30-40K` · `$3.50/hr`	> H100
B200 192GB	192 GB	`$40K+` · `$5-6/hr`	~2× H100

โมเดลที่รันได้จริงในแต่ละ tier

Single RTX 4090 → Qwen3 32B dense (Q4 ใช้ ~20GB)
Dual RTX 4090 / RTX 6000 Ada → Llama 3.3 70B Q4 (~40GB)
Mac Studio M3 Ultra 96GB → Llama 3.3 70B FP16 หรือ Q8
Mac Studio M3 Ultra 256GB+ → DeepSeek V3 671B Q4 (rare ที่บ้าน)
8× H100 (640GB total) → DeepSeek V4 Pro 1.6T MoE — frontier open-weight ที่ self-host ได้จริง

Breakeven จริง — Thai context

Scenario: Llama 3.3 70B Q4 บน RTX 4090 vs Together AI $0.88/M

CapEx: RTX 4090 + workstation ~$3,970 → amortize 3 ปี = $110/mo
Electricity: ~180 kWh/mo × 3.95 THB/kWh (PEA พ.ค. 2026) = ~700฿ ≈ $20/mo
Total: ~$130/month
Throughput: ~15 tok/s × 8 ชม./วัน = ~13M tok/month

จ่าย Together AI: 13M × $0.88 = $11/month → cloud ถูกกว่า self-host ~12 เท่า

Bar chart เปรียบเทียบค่าใช้จ่ายต่อเดือน 3 volume tier · 10M tokens/month: cloud (Together AI Llama 70B) $9 vs self-host RTX 4090 $130 (cloud ถูกกว่า 14 เท่า) · 100M tokens/month: cloud $88 vs Mac Studio M3 Ultra $200 (cloud ยังถูกกว่า) · 1B tokens/month: cloud $880 vs 8x H100 self-host owned amortized $300 (self-host ถูกกว่า 3 เท่า) — $/month ที่ volume ต่างกัน · cloud ชนะที่ volume ต่ำ-กลาง · self-host คุ้มเมื่อ >500M tok/month และ saturate hardware ได้

Insight ที่ surprising — ที่ prosumer scale (single GPU, single user) cloud จริง ๆ ถูกกว่า self-host ในแง่ราคาต่อ token เพราะ GPU underutilized · self-host ไม่ใช่ การประหยัดเงิน แต่เป็นการแลกเพื่อได้:

Privacy เต็ม (ไม่ส่งข้อมูลออก)
ไม่มี rate limit
Latency คงที่
Independence จาก vendor pricing change

เมื่อ self-host ชนะ cost จริง

Small team (5-20 users) → Mac Studio M3 Ultra รัน Qwen3 32B แทน SaaS license ($20/seat × 20 = $400/mo)
Enterprise (>500M tok/mo) → 8× H100 batched ที่ 4,800 tok/s ผ่าน TensorRT-LLM · cloud equivalent $11K+/mo

ต้นทุนที่ซ่อน — ราคา hardware ไม่ใช่ราคาทั้งหมด ต้องคิดเพิ่ม

เวลา DevOps (driver updates, CUDA cycle, llama.cpp/vLLM versions ทุก 2-4 สัปดาห์)
ไม่มี SLA · ไฟตก = service down
Update treadmill · GPU วันนี้อาจไม่พอกับ frontier ปีหน้า
Quantization tuning (Q4 vs Q5 vs Q8 มี regression ต้อง eval)
GPU underutilization · single user ใช้ <20% capacity ของ H100
Memory bandwidth ceiling (M3 Ultra ~800 GB/s vs H100 3.35 TB/s)
Compliance (PDPA, GDPR) ไม่หาย ไม่ว่ารันที่ไหน

คำถามห้าข้อก่อนเลือก

1. Volume เท่าไหร่ต่อเดือน?

< 10M → cloud frontier (cost ไม่กระทบ)
10M-100M → open-weight via API
500M เสถียร → consider self-host หรือ enterprise reserved

2. มี data ที่ห้ามส่งออกไหม?

ใช่ (financial, healthcare, government) → self-host หรือ private cloud (Bedrock, Azure OpenAI)
ไม่ → cloud OK

3. ต้องการคุณภาพระดับไหน?

Frontier reasoning/coding → GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro
“ดีพอ” ทั่วไป → open-weight (DeepSeek V4 Pro, Kimi K2.6) ที่ราคา 1/10-1/30
เร็ว ถูก (classify/extract) → Haiku 4.5, GPT nano, Flash-Lite

4. Latency requirement?

< 500ms consistent → Groq หรือ self-host
1-5s OK → standard cloud

5. มีคน DevOps ไหม?

ไม่ → cloud (รวม Groq)
มี → self-host พิจารณาได้

Default ถ้ายังไม่ชัด — เริ่มที่ open-weight via API (Together / Groq / DeepInfra) เพราะ migrate ออกง่ายที่สุด

บทสรุป

ภาพรวมกลางปี 2026:

ราคา cloud ลดลง ~80% ในปีเดียว — งานที่เคยทำไม่คุ้มตอนนี้คุ้มแล้ว
Open-weight ปิด gap คุณภาพ — ใช้แทน frontier ได้ที่ราคา 1/10 ถึง 1/30 สำหรับงานส่วนใหญ่
Self-host ที่ prosumer scale แพ้ cloud ในแง่ $/token — ชนะแค่ที่ privacy, latency, batched enterprise
Landscape rotate เร็ว — โมเดลที่ “ดีที่สุด” เปลี่ยนทุก 3-6 เดือน · Llama 4, Qwen 3, DeepSeek V3 ตอนนี้ถูกแซงโดย Kimi K2.6, DeepSeek V4 Pro, MiMo V2.5 Pro แล้ว

เป้าหมายของการเลือก LLM ไม่ใช่ “ใช้โมเดลแพงที่สุด” หรือ “self-host ทุกอย่างเพื่อ control” แต่คือ “เลือกให้พอดีกับ workload, budget, และ constraint ของตัวเอง” · คำตอบมักจะเป็น “ใช้ open-weight via API ก่อน · ถ้าดีค่อย upgrade ไป frontier หรือ self-host”

ขอบเขตของบทความ — บทความนี้พูดถึงแค่ราคาและคุณภาพ · แกน “Data security ในระบบ LLM” (PII, data residency, prompt injection, audit trail) อยู่ใน Data Security ในระบบ LLM · ส่วนแกน “เลือกระดับของระบบ LLM” (raw / workflow / agent) อยู่ใน Raw LLM, Workflow, Agent — สามแกนนี้ตัดสินใจอิสระจากกัน

แหล่งอ้างอิงหลัก: Anthropic Pricing · OpenAI Pricing · Google AI Pricing · Artificial Analysis Intelligence Index · LMArena Leaderboard · DeepSeek API · Z.AI / Zhipu · Together AI · Groq · Mistral AI · BestValueGPU price tracker · ราคาทั้งหมดเป็นภาพรวม พ.ค. 2026