Trong bộ phim Ratatouille, con chuột Remy có tài nấu ăn kiệt xuất nhưng lại không có hình dáng của một đầu bếp. Để tồn tại trong một nhà hàng năm sao của Paris, nó phải nấp dưới cái mũ trắng, giật tóc điều khiển cậu phụ bếp ngơ ngác Linguini. Thực khách ăn ngon, ngợi khen Linguini, hệ thống nhà hàng vận hành trơn tru. Tài năng là thật, nhưng hệ thống đòi hỏi một cái vỏ bọc đúng quy chuẩn. Trí tuệ của con chuột bắt buộc phải vay mượn hình dáng của một con người.
Cái mũ đầu bếp đó, trong lịch sử công nghệ, người ta gọi nó là hình thức mượn (Borrowed Form).
Khái niệm này được Steve Jobs nhắc tới từ năm 1983, và gần đây nhà thiết kế David Hoang lật lại để mô tả tình trạng hiện tại của AI. Mọi công nghệ mới sinh ra đều chui vào cái vỏ của công nghệ cũ mà nó thay thế.
TV những ngày đầu chỉ là đài phát thanh có gắn thêm camera. Ứng dụng điện thoại đời đầu chỉ là trang web trên máy tính bị ép nhỏ lại. Còn bây giờ? Các AI Agent siêu việt nhất đang bị nhốt trong một cái khung chat, hoặc một thanh công cụ bên cạnh sườn màn hình. Trí tuệ vô hình đang phải giả vờ làm một con người đánh máy để bạn cảm thấy an tâm.
Và giống như việc Remy phải múa may giật tóc Linguini, cái khung chat này cực kỳ cồng kềnh.
Ai Trả Tiền Cho Khung Chat?

Giới công nghệ đang điên cuồng tối ưu cái khung chat đó. Họ làm ra giao diện mượt hơn, giọng nói truyền cảm hơn, những hình ảnh không gian ba chiều lơ lửng trước mặt. Họ cố may một cái mũ đầu bếp xịn hơn cho con chuột.
Đây là một cái bẫy.
Lịch sử chứng minh rằng: bước ngoặt để một công nghệ thoát khỏi “hình thức mượn” và tìm thấy hình thức bản địa (native form) của nó chưa bao giờ đến từ một ông thiết kế UI thức dậy và thấy ngộ ra chân lý. Nó luôn bị ép ra bằng bạo lực của kinh tế.
Truyền hình mất 9 năm mới thoát khỏi hình thức phát thanh, nhờ bộ phim I Love Lucy. Tại sao? Vì nhà sản xuất nhận ra quay bằng phim nhựa 35mm có thể chiếu lại kiếm tiền quảng cáo nhiều lần (syndication), thay vì diễn live bốc hơi sau một đêm. Lợi nhuận bẻ gãy cấu trúc.
Internet mất 11 năm để thoát khỏi mấy trang web tĩnh đọc-như-báo-giấy. Bước ngoặt là bong bóng Dot-com vỡ nát. Hết tiền đầu tư, các công ty không thể nuôi cả rổ biên tập viên viết bài nữa. Amazon, Google, eBay sống sót vì họ nhận ra internet không phải là tờ báo, nó là cơ sở dữ liệu. Họ đẩy việc tạo nội dung cho người dùng. Áp lực chi phí bẻ gãy cấu trúc.
Tương tự với điện thoại thông minh. Mobile thoát khỏi cái bóng của PC không phải nhờ Apple đổi thiết kế phẳng (chuyện đó xảy ra mãi tận năm 2013). Nó bứt phá từ 2009 vì Uber, Instagram phát hiện ra thứ mà PC không có: GPS và camera. Trọng tài luôn là tiền.
Chi Phí Của Lòng Tin
Vậy cái gì sẽ đập vỡ khung chat của AI Agent hiện tại?
Chắc chắn không phải là thiết kế. Kẻ thủ tiêu khung chat chính là bài toán hoàn vốn (ROI).

Hiện tại, chi phí để AI sinh ra một đoạn văn bản hay một phân tích đang tiến dần về số 0. Nhưng chi phí để trả cho một con người (người quản lý, nhân viên) ngồi đọc cái tóm tắt đó trên khung chat thì vẫn cố định, thậm chí ngày càng đắt đỏ. Chừng nào AI còn nằm trong khung chat, nó vẫn cần sự chú ý của con người để ra lệnh, kiểm tra, và thực thi. Sự chú ý của con người là cổ chai đắt giá nhất trong mọi doanh nghiệp. Thậm chí, như mình từng phân tích, việc nhốt mọi tác vụ vào một khung chat tuyến tính đang vắt kiệt băng thông nhận thức và hủy diệt hoàn toàn trí nhớ không gian của người dùng.
Một con AI nhắc bạn qua chat rằng “kho thịt đông lạnh sắp hết hạn” có giá trị rất thấp. Ngược lại, một con AI Agent vô hình hoàn toàn có thể tự động kết nối với phần mềm định giá, hạ giá thịt trên kệ điện tử, đẩy mã giảm giá vào ứng dụng của khách hàng, và gọi thẳng xe tải đến dọn kho mà không cần đến một giao diện đồ họa nào. Đó mới là lợi thế bất đối xứng. Hình thức bản địa của Agent không phải là một màn hình đẹp hơn. Nó là sự can thiệp vật lý (robotics) hoặc một mớ mã lệnh chạy ngầm kết nối các hệ thống (API-to-API orchestration).
Chúng ta đang trả lương cho một cậu phụ bếp lóng ngóng chỉ để che giấu sự thật rằng có một trí tuệ sắc bén hơn đang nấu ăn dưới cái mũ.
Khi các doanh nghiệp nhận ra việc trả tiền cho cái mũ rỗng là sự lãng phí vô nghĩa, cái khung chat sẽ vỡ vụn. Không cần nhân dáng ảo, không cần giọng nói truyền cảm. Lối thoát của AI không nằm ở việc thiết kế một cái mũ vừa vặn hơn. Nó nằm ở việc đập bỏ nhà hàng cũ, và để con chuột tự cầm dao.
