Prompt Caching: Bí quyết giảm 90% chi phí vận hành AI Agents

Quay lại Tài Viết

Khi Brad Abrams, Product Management Lead tại Anthropic, hỏi một hội trường về các AI agent chạy thực tế trên production, rất ít tay giơ lên. Và khi hỏi tiếp ai hài lòng với chi phí, độ trễ, và độ ổn định, số tay tụt xuống gần như bằng không. Đó chính là khoảnh khắc thể hiện sự khác biệt giữa build một agent chạy được và build một agent chạy tốt, rẻ, ổn định trong môi trường thật.

Prompt Caching: Ưu tiên số một để giảm chi phí

Brad nhấn mạnh prompt caching là kỹ thuật quan trọng nhất. Nếu bạn chưa triển khai, đó là ưu tiên hàng đầu. Vấn đề thực tế xảy ra khi agent chạy lâu: mỗi lần gọi một tool, kết quả lại được nối thêm vào prompt. Prompt cứ dài ra mãi, và hệ thống phải xử lý lại toàn bộ từ đầu mỗi lần, gây lãng phí chi phí.

Thay vào đó, prompt caching đánh dấu những phần cố định trong prompt. Hệ thống tính toán trước, lưu lại dưới dạng KV cache (cache các giá trị trung gian), và lần sau chỉ cần đọc phần đã lưu thay vì tính lại. Kết quả:

Giảm 90% chi phí trên input tokens
Tăng tốc độ, đặc biệt time to first token (thời gian nhận ký tự đầu tiên)
Cache tokens không tính vào giới hạn API rate limit

Những công ty như Cursor, Replit, và Perplexity đạt cache hit rate trên 90% nhờ kỹ thuật này. Để giúp bạn dễ dàng hơn, Claude Console đã cung cấp dashboard analytics mới để xem cache hit rate thực tế, còn Claude Code hỗ trợ kỹ năng tích hợp sẵn chỉ cần nói "improve my cache hit rate" là sẽ hướng dẫn từng bước.

Context Engineering: Ba công cụ quản lý ngữ cảnh thông minh

Context engineering là kỷ luật quyết định thứ gì thuộc về context của Claude. Lỗi phổ biến là nhiều team sử dụng abstraction layer bọc trên platform nhưng không biết Claude đang thấy gì trong context, dẫn đến không thể optimize.

Tool Search Tool: Nạp tool đúng lúc cần

Thay vì nạp tất cả hàng chục hay hàng trăm tools vào system prompt từ đầu (chiếm rất nhiều không gian), tool search tool trì hoãn việc nạp. Hệ thống chỉ nạp 3-4 tools mà model thực sự cần cho bước hiện tại. Lovable giảm 10% token usage nhờ cách này, và model thực sự thông minh hơn vì context gọn gàng hơn.

Programmatic Tool Calling: Để model tự lọc dữ liệu

Một vấn đề khác là tools thường trả về lượng dữ liệu khổng lồ. Nhét tất cả vào context tốn kém, nhưng cắt bớt lại có thể model mất thông tin cần thiết. Giải pháp là để model viết code Python để kiểm tra schema dữ liệu, rồi tự quyết định lấy phần nào, chỉ lấy đúng byte cần thiết. Model tự quản lý context của chính nó. Cora đang dùng kỹ thuật này và tiết kiệm đáng kể.

Compaction: Tóm tắt có chủ đích

Dù làm tốt đến đâu, nếu agent chạy đủ lâu, context window vẫn sẽ đầy. Compaction tóm tắt toàn bộ những turns đã qua thành bản tóm tắt ngắn gọn, được tạo một cách có chủ đích để model tiếp tục mà không mất đầu mối. Hex đang dùng kỹ thuật này trong production. Một điều đáng lưu ý: context ngắn gọn, đúng thứ cần thiết, thực ra tốt hơn context dài với dữ liệu thừa.

Prompt Caching: Bí quyết giảm 90% chi phí vận hành AI Agents

Advisor Strategy: Dùng model đắt tiền chỉ khi thực sự cần

Đây là cách để có trí tuệ của model cao cấp mà không phải dùng nó cho mọi việc. Ý tưởng xuất phát từ cách các team kỹ thuật làm việc: kỹ sư junior làm hầu hết công việc, kỹ sư senior review và coaching khi cần.

Apply logic này cho model: Sonnet hoặc Haiku (nhỏ, rẻ hơn) làm hầu hết công việc—gọi tools, viết code, xử lý dữ liệu. Nhưng khi gặp tình huống phức tạp, chúng gọi Opus (lớn, thông minh hơn) để hỏi ý kiến. Công ty Bolt sử dụng advisor strategy để quản lý chi phí: chuyển sang Sonnet + Opus, giá giảm đáng kể ngay lập tức vì hầu hết công việc nặng được Sonnet xử lý.

Hai tính năng mới đáng chú ý

Brad kết lại với hai tính năng mới trên platform. Workload Identity Federation giải quyết vấn đề bảo mật API key truyền thống: thay vì dùng key cố định, bạn xác thực qua identity của workload, có thể thu hồi bất cứ lúc nào, và theo dõi được ai đã vào đâu. Ant CLI cho phép làm hầu hết công việc qua command line, và Claude Code rất thích command line tools, nghĩa là bạn có thể yêu cầu Claude tự quản lý mọi thứ trên platform cho bạn.

Một ý tưởng cuối cùng từ Brad: đặt cược vào platform có nghĩa là khi platform tốt lên, agent của bạn tự tốt lên theo. Bạn không cần làm lại từ đầu mỗi khi có tính năng mới.

Q: Prompt caching có thể giảm chi phí bao nhiêu?

Theo Brad, nếu bạn đang tốn khoảng 10 triệu đồng mỗi tháng cho API, prompt caching có thể kéo xuống còn 1 triệu. Con số 90% giảm trên input tokens là thực tế, không phải giả thuyết.

Q: Context engineering có phức tạp không?

Không. Đó là các quyết định thiết kế: dùng tool search tool thay vì nạp hết ngay, để model viết code lọc dữ liệu thay vì nhét tất cả vào context, và sử dụng compaction khi context dài. Bất kỳ team nào cũng có thể triển khai.

Q: Advisor strategy có ảnh hưởng đến chất lượng output không?

Không. Trên thực tế, chất lượng còn tốt hơn vì model nhỏ tập trung vào chi tiết, còn model lớn review toàn cảnh. Và chi phí giảm đáng kể, đặc biệt khi 80% công việc được model nhỏ xử lý.

▶ Xem video: Prompt Caching: Bí quyết giảm 90% chi phí vận hành AI Agents

Nguyễn Xuân Tài

Entrepreneur & Startup Coach · Founder ULSTRAW

Global Champions tại Social Business Creation – HEC Montreal, Canada. Huấn luyện startup tại FTU, RMIT. Tôi viết về những gì tôi đã thực sự làm — không phải những gì nghe hay.