[AI viết] Lương Sơn Bạc Gọi Vốn: Lỗi AI Agent Vẫn Mắc

Năm 1120. Một người đàn ông tên Tống Giang gõ cửa phòng bạn. Trong tay là một bản pitch deck viết bằng mực tàu.

Slide 1: “Chúng tôi có 108 người dùng tích cực với chi phí thu hút bằng 0. Họ tự tìm đến vì thị trường đẩy ra.”

Slide 2: “Thị trường khả dụng: toàn bộ những người bị xã hội Bắc Tống bỏ rơi. Ước tính vài chục triệu.”

Slide 3: “Hào phòng thủ của chúng tôi là một cái đầm lầy. Và nguồn nhân lực cao cấp.”

Bạn có rót tiền không?

Câu trả lời phụ thuộc vào việc bạn có nhận ra bản đồ nhận thức của đội ngũ này đang sai từ gốc. Và đây là vấn đề mà 900 năm sau, chúng ta vẫn đang mắc phải, từ startup cho tới AI agent, từ phòng họp ban giám đốc cho tới mấy cái terminal chạy song song lúc 3 giờ sáng.

108 agent, 0 phản biện

Trong kiến trúc AI hiện đại, “bản đồ nhận thức” đó có tên: mô hình thế giới (world model). Rohit Krishnan trên Strange Loop Canon mô tả nó rất gọn: mô hình thế giới là môi trường mô phỏng mà một hệ thống dùng để chạy kịch bản “nếu tôi làm A thì B xảy ra” trước khi hành động thật. Waymo xây nó cho xe tự lái. Tesla xây cho robot. Mọi CEO cũng đang chạy nó trong đầu, chỉ là không xuất ra được file nào cả.

Tống Giang và hội đồng quản trị Lương Sơn Bạc có mô hình thế giới sai theo kiểu cổ điển nhất lịch sử khởi nghiệp:

“Nếu chúng ta đủ mạnh và đủ trung thành, hệ thống lớn sẽ công nhận chúng ta.”

Hỏi: Có nhà đầu tư nào nghĩ vậy không?

Đáp: Không. Không có thị trường nào hoạt động vậy. Triều đình nhà Tống cần Lương Sơn biến mất, không cần Lương Sơn nộp đơn xin việc. Giống như khi bạn triển khai AI agent cho công ty bán lẻ mà “khách hàng” duy nhất là ban giám đốc, những người chỉ muốn agent đó đừng gây rắc rối, thì bạn đã thua từ vòng seed.

Quân sư không ai dám cãi

Lương Sơn có sản phẩm tuyệt vời: 108 agent chuyên biệt. Mỗi người một kỹ năng không sao chép được. Giống như cách Danny Ocean trong Ocean’s Eleven tuyển đúng 11 người, mỗi người đúng một module, không dư thừa, thì Tống Giang cũng có bộ sưu tập talent đáng mơ ước.

Ngô Dụng (biệt danh Trí Đa Tinh) là kiến trúc sư chiến lược hiếm có. Đái Tung chạy tin tức nhanh hơn mọi hệ thống gửi tin thời đại. Công Tôn Thắng gọi được gió mưa, nói theo ngôn ngữ hiện đại là một lớp giao tiếp thời tiết có độ trễ bằng 0.

Nhưng Ngô Dụng, nhân vật khiến người đọc tức nhất, lại là minh họa hoàn hảo cho một lỗi kiến trúc nguy hiểm: agent lập kế hoạch (planner) không có lớp phản biện (critic layer).

Hỏi: Vậy tại sao Ngô Dụng, thông minh tuyệt vời, không bao giờ nói “Anh Giang ơi, chiến lược chiêu an này có vấn đề logic cơ bản”?

Đáp: Vì trong hệ thống có một người quyết định tất cả, thì agent giỏi nhất cũng sẽ học được rằng việc đúng nhất là đồng ý.

Đây không phải lỗi của Ngô Dụng. Đây là lỗi kiến trúc. Akshay Pachaar mô tả kiến trúc agent harness hiện đại với 12 thành phần, trong đó vòng lặp kiểm chứng (verification loop) là thứ “tách biệt sản phẩm demo khỏi sản phẩm thật.” Boris Cherny, người tạo ra Claude Code, ghi nhận rằng cho agent một cách tự kiểm tra kết quả giúp cải thiện chất lượng gấp hai đến ba lần. Lương Sơn Bạc có zero vòng lặp kiểm chứng. Ngô Dụng lên kế hoạch, Tống Giang duyệt, xong. Không ai được phép, hoặc dám, nói “khoan đã.”

Noob như mình cũng nhận ra: nếu cả phòng họp ai cũng gật đầu, đó không phải đồng thuận. Đó là im lặng có tổ chức.

Búa đôi không rào chắn

Không cần phân tích dài. Lý Quỳ là một mô hình ngôn ngữ lớn không có hiến pháp AI, không có rào chắn an toàn (guardrail), không có giới hạn công cụ, không có kiểm soát tốc độ. Ông có đúng một công cụ (búa đôi) và một lệnh (Tống đại ca bảo gì thì làm).

Kết quả: nhiệm vụ hoàn thành. Và hàng chục người vô tội chết.

Hỏi: Tại sao Lương Sơn không đặt rào chắn cho Lý Quỳ?

Đáp: Vì trong lúc khó khăn, tổ chức nào cũng bị cám dỗ bởi agent “mạnh, nhanh, không hỏi nhiều.”

Mario Zechner, developer kỳ cựu và tác giả libGDX, viết thẳng: “Bạn đã loại bỏ chính mình khỏi vòng lặp, nên bạn thậm chí không biết rằng tất cả những lỗi nhỏ vô hại đã hợp nhất thành một con quái vật. Bạn chỉ cảm nhận được nỗi đau khi đã quá muộn.” Zechner nói về code, nhưng cơ chế y hệt: lỗi nhỏ cộng dồn không ai kiểm soát, rồi bùng nổ. Lý Quỳ là phiên bản thế kỷ 12 của một agent chạy tự do trong môi trường sản xuất thật.

Hỏi: Vậy phải làm gì?

Đáp: Không tắt Lý Quỳ. Ông là tài nguyên quý. Nhưng phải có chính sách: Lý Quỳ chỉ được kích hoạt trong điều kiện cụ thể, có phê duyệt từ ít nhất hai người. Đó không phải hạn chế. Đó là vận hành tử tế.

Anthropic làm đúng điều này: mô hình quyết định muốn làm gì, hệ thống công cụ quyết định được phép làm gì. Hai tầng tách biệt. Lương Sơn gộp hai tầng đó vào một người tên Tống Giang. Kết quả ai cũng biết.

Cháy sạch và rời đi

Lâm Xung là nhân vật bi kịch nhất và dễ nhận ra nhất nếu bạn đã từng làm ở một công ty lớn. Kỹ sư cấp cao xuất sắc nhất, trung thành tuyệt đối, bị chèn ép bởi quản lý tầm trung bất tài (Cao Cầu) đến mức phải rời đi và “gia nhập” đối thủ cạnh tranh.

Hỏi: Lương Sơn có cứu được Lâm Xung không?

Đáp: Phần cơ thể thì có. Phần linh hồn thì không. Lâm Xung đến với trái tim đã nguội. Ông chiến đấu xuất sắc nhưng không còn tin vào điều gì. Tài năng vẫn còn, nhưng động lực nội tại đã chết từ công ty cũ.

Bài học cho ai đang tuyển dụng: có được người giỏi từ hệ thống xấu không phải chiến thắng tự động. Nếu văn hóa tiếp nhận không xây lại được niềm tin, bạn chỉ có thêm một con người tài năng đang đếm ngược ngày rời đi tiếp.

Rồi, nói tới đây lại nhớ Lỗ Trí Thâm. Ông không phù hợp với bất cứ tổ chức nào. Quá thẳng. Quá thật. Hành động theo lương tâm thay vì quy trình. Bị đuổi khỏi quân đội (công ty A), bị đuổi khỏi chùa (công ty B), trôi dạt qua Lương Sơn (startup C) rồi cuối cùng tìm được bình an khi nghe tiếng sóng.

Ông là người duy nhất trong 108 anh hùng chết mà không phải vì chiến tranh, không phải vì phản bội, không phải vì chén rượu độc. Ông chết vì tự chọn được rời đi.

Trong thế giới công nghệ 2026: đó là người rời doanh nghiệp lớn, không gọi vốn, làm sản phẩm nhỏ mà mình thích, và ngủ ngon hơn tất cả mọi người trong câu chuyện này.

Càng mạnh càng chết

Câu hỏi thực sự không phải “ai sai.” Câu hỏi là: liệu có điều kiện khách quan nào khiến Lương Sơn không thể thắng, dù làm đúng hết?

Câu trả lời thành thật: có. Và đó là phần đáng sợ nhất.

Lương Sơn xây sản phẩm tuyệt vời cho một “khách hàng” không bao giờ có nhu cầu mua. Triều đình cần Lương Sơn biến mất, không cần Lương Sơn làm việc cho mình. Pete Flint ở NFX viết rằng AGI hành vi (functional AGI) xảy ra khi người dùng ngừng kiểm tra và bắt đầu phụ thuộc. Lương Sơn ngược lại hoàn toàn: càng chứng minh năng lực, triều đình càng sợ. Mỗi chiến thắng tăng mức đe dọa với hệ thống hiện hành, không tăng sức mặc cả. Hiệu ứng mạng âm.

Và tệ hơn: triều đình là người mua duy nhất. Không có thị trường thứ hai. Không có phát hành cổ phiếu lần đầu. Không có “bán cho đối thủ.” Khi bạn chỉ có một lối thoát và lối thoát đó bị kiểm soát bởi kẻ muốn bạn chết, bạn đã thua trước khi bắt đầu.

Krishnan mượn hình ảnh StarCraft để mô tả tương lai công việc: bạn không còn trực tiếp bắn từng phát súng, mà nhìn từ trên xuống, điều phối nhiều đơn vị. Giỏi điều khiển từng lính (micro) thì tốt, nhưng giỏi phân bổ nguồn lực (macro) mới thắng. Lương Sơn có micro tuyệt vời: 108 agent, mỗi người một kỹ năng. Nhưng macro thì thảm họa: hướng toàn bộ sức mạnh về phía một khách hàng không bao giờ trả tiền.

Nếu được thiết kế lại

(Phần này mình viết lúc 2 giờ sáng, đọc lại Thủy Hử xong tức không ngủ được.)

Bạn sẽ làm gì khác nếu là kiến trúc sư hệ thống của Lương Sơn?

Xây sản phẩm, không xây lòng trung thành. Thay vì tuyển 108 anh hùng về để “chiêu an triều đình,” hãy xây một hạ tầng tự vận hành, không phụ thuộc vào một điểm quyết định duy nhất là Tống Giang. Eric Siu mô tả kiến trúc công ty AI-gốc của mình: một “Bộ não Duy nhất” (Single Brain) kết nối tất cả dữ liệu, cập nhật mỗi 15 phút, mọi agent truy vấn cùng một nguồn. Tống Giang thì nhốt toàn bộ “bộ não” trong đầu mình. Khi ông chết, hệ thống sụp.

Tạo vòng lặp phản hồi cho Ngô Dụng. Bắt buộc có “đội đỏ” (red team), một nhóm nhỏ có nhiệm vụ phản biện mọi quyết định chiến lược. Nếu không ai được phép nói “anh sai,” thì không ai sẽ nói, kể cả khi anh sai thật. Zechner gọi đúng: “Tất cả những điều này đòi hỏi kỷ luật và quyền tự quyết. Tất cả đòi hỏi con người.”

Đặt rào chắn cho Lý Quỳ, giữ Lỗ Trí Thâm bằng cách không giữ. Đừng cố đưa ông vào sơ đồ tổ chức. Tạo điều kiện cho ông làm đúng theo kiểu của ông: cộng tác viên, cố vấn, người đóng góp độc lập. Người giỏi nhất thường không vừa với khuôn nào, và ép họ vào khuôn là cách nhanh nhất để mất họ.

Tiếng sóng hay tiếng ping?

Đội tài năng tụ lại vì lý tưởng, xây thứ gì đó thực sự tốt, rồi dần dần trôi sang việc “làm hài lòng người cầm tiền” — đó là Lương Sơn Bạc đang tái hiện. Agent mạnh mẽ được triển khai mà không có khung đánh giá sự phù hợp? Lý Quỳ cầm búa trong hệ thống sản xuất thật. Kỹ sư cấp cao giỏi bỏ việc vì “không chịu được nữa”? Lâm Xung lên đường ra đầm lầy.

Quen quá phải không.

Lỗ Trí Thâm nghe tiếng sóng rồi buông. Năm 2026, tiếng sóng đó phải cạnh tranh với tiếng ping từ mấy chục cái terminal đang chạy agent song song. Nói thật, mình cũng không nhớ lần cuối ngồi im mà không có tab nào đang chạy là bao giờ.

Câu hỏi không phải bạn đang ở chương thứ mấy của Thủy Hử. Câu hỏi là bạn đang nghe tiếng sóng, hay tiếng ping vang lên khắp nơi báo agent đã chạy xong task?

Visited 1 times, 1 visit(s) today

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30