[AI viết] Chatbot Ngồi Dự Bị: Khi OpenAI Tự Đo Chính Mình

Câu mở đầu Tam Quốc Diễn Nghĩa ai cũng thuộc: “Thiên hạ đại thế, hợp lâu tất phân, phân lâu tất hợp.” La Quán Trung viết câu đó không phải để dự báo. Ông viết để mô tả một quy luật vật lý: khi một cấu trúc hết thời, nó sụp, dù bộ máy vẫn nguyên vẹn, nhân sự vẫn đầy đủ, sản phẩm vẫn chạy. Cái chết đến trước khi ai kịp đọc cáo phó.

Trước khi đi vào số liệu, cần rạch ròi một ranh giới mà rất nhiều người đang trộn lẫn: chatbot và agent đều nói chuyện qua chat. Bạn mở ChatGPT, gõ một câu, nhận một câu trả lời. Bạn mở Codex, cũng gõ một câu. Giao diện gần như giống nhau. Sự khác biệt không nằm ở cách bạn ra lệnh, mà nằm ở ai cầm vô-lăng sau khi lệnh được gửi đi.

Chatbot là một vòng lặp do người điều khiển: bạn hỏi → máy trả lời → bạn đọc → bạn hỏi tiếp. Mỗi bước tiếp theo đều chờ bạn quyết định. Bạn là người lái, AI là GPS đọc bản đồ. Agent lật ngược: bạn giao một mục tiêu (“refactor module này, viết test, mở pull request”) → máy tự phân rã thành các bước, tự chạy, tự sửa lỗi giữa đường, tự gọi công cụ, và chỉ quay lại khi xong hoặc khi kẹt. Bạn là người giao việc, AI là người thực thi. Chat vẫn là giao diện, nhưng quyền kiểm soát flow đã chuyển tay.

Phân biệt này quan trọng vì nó quyết định cách đọc mọi con số phía dưới. Khi OpenAI nói “99,8% token chạy qua Codex thay vì ChatGPT”, họ không nói nhân viên ngừng chat. Họ nói nhân viên ngừng lái từng bước — và bắt đầu ủy quyền.

Tháng 6 năm 2026, bộ phận nghiên cứu kinh tế của OpenAI công bố một bài viết với dữ liệu nội bộ về cách nhân viên của họ dùng AI. Con số nổi bật nhất: 99,8% lượng token đầu ra hàng tuần tại OpenAI giờ chạy qua Codex (công cụ agent), không còn qua ChatGPT. Chatbot vẫn ở đó, vẫn chạy, vẫn trả lời. Nhưng vị trí số 1 đã đổi chủ.

Bốn xu hướng, một kết luận

Bài nghiên cứu của OpenAI ghi nhận bốn xu hướng diễn ra đồng thời trong nội bộ công ty. Mỗi xu hướng đứng riêng lẻ đã đáng chú ý, nhưng gộp lại thì chúng kể cùng một câu chuyện.

Xu hướng 1: Người dùng giao việc dài hơn. OpenAI dùng một phương pháp gọi là “LLM-as-judge” để ước tính mỗi yêu cầu gửi tới Codex sẽ tốn bao lâu nếu một người bình thường tự làm. Kết quả: 80,6% người dùng cá nhân được khảo sát đã gửi ít nhất một yêu cầu vượt quá 30 phút công việc tương đương. 70,2% vượt quá 1 giờ. Cái khung thời gian này có một cái tên: “task horizon”, độ dài của một phiên giao việc. Và task horizon đang giãn ra liên tục. Từ “hỏi nhanh một câu” sang “làm hộ tôi cái này, tôi đi uống cà phê.”

Xu hướng 2: Mọi phòng ban chuyển sang agent. Không chỉ Engineering. Legal, Finance, Recruiting, Customer Support, Research. Tất cả các phòng ban tại OpenAI đều chuyển từ ChatGPT sang Codex làm công cụ AI chính. Phòng Research tăng mức sử dụng trung vị 56 lần so với tháng 11/2025. Customer Support tăng 32 lần. Engineering tăng 27 lần. Bạn đọc không nhầm: phòng nghiên cứu tăng gấp đôi tốc độ áp dụng so với phòng kỹ thuật.

Xu hướng 3: Người không biết lập trình áp dụng nhanh hơn. Đây là con số phản trực giác nhất. Số lượng người dùng cá nhân không phải lập trình viên tăng 137 lần kể từ tháng 8/2025. Tổ chức bên ngoài tăng 189 lần. Trong khi đó, lập trình viên tăng chậm hơn nhiều. Mô hình quen thuộc “kỹ sư dẫn đầu, phòng ban khác theo sau” bị lật ngược.

Xu hướng 4: Ranh giới chuyên môn tan rã. Hơn 25% lượng token đầu ra của nhân viên khối kinh doanh (business functions) tại OpenAI là code. Luật sư viết code. Nhân sự phân tích dữ liệu. Người tuyển dụng dựng pipeline. Agent cho phép mọi người bước qua ranh giới chuyên môn mà trước đây cần hàng năm đào tạo để chạm tới.

Gộp bốn xu hướng lại: chatbot đã thoái vị tại công ty tiên phong nhất thế giới về AI, agent thay thế nó ở mọi phòng ban, và những người áp dụng nhanh nhất lại là những người ít kỹ thuật nhất.

60 giờ mỗi ngày

Con số kỳ lạ nhất trong bài nghiên cứu nằm ở nhóm người dùng top 1%. Tính theo phân vị 99, những người này tạo ra hơn 60 giờ Codex agent mỗi ngày tính đến tháng 6/2026. Một ngày chỉ có 24 giờ. Phép tính chỉ ra được khi nhiều agent chạy song song, đồng thời, mỗi agent xử lý một nhiệm vụ riêng.

Mình đọc con số đó và nghĩ tới cái vị trí mới mà chưa ai viết mô tả công việc: “quản lý đội agent.” Không phải quản lý người. Quản lý máy. Bạn ngồi đó, phân việc cho 5 agent cùng lúc, mỗi con xử lý một task kéo dài vài giờ. Bạn review kết quả, gửi lại nếu sai, chuyển sang task tiếp. Một ngày 8 tiếng của bạn tạo ra 60 giờ công việc. Nghe rất đẹp.

Nhưng câu hỏi mà bài nghiên cứu không đặt ra: khi agent số 4 tạo ra một lỗi nghiêm trọng ở giờ thứ 37, liệu người đang bận review kết quả của agent số 1, 2, 3, 5 có kịp nhận ra không? Quản lý một đội 5 người đã khó. Quản lý 5 agent chạy song song, mỗi con sản xuất hàng nghìn dòng output, với zero khả năng nhìn thấy quá trình trung gian, là một bài toán hoàn toàn khác. Bài nghiên cứu đo tốc độ sản xuất. Chất lượng giám sát thì không.

Ai vượt ai?

Có một chi tiết trong dữ liệu đáng dừng lại lâu hơn. Phòng Legal, Finance, Recruiting áp dụng agent nhanh hơn phòng Engineering. Đây là kiểu phản trực giác mà bạn phải đọc hai lần.

Logic thông thường: kỹ sư hiểu công cụ, kỹ sư dẫn đầu, phòng ban khác chờ kỹ sư dọn đường rồi mới vào. Mọi kế hoạch triển khai AI ở mọi tập đoàn mình từng thấy đều bắt đầu bằng “IT pilot trước, các phòng ban sau.” Dữ liệu của OpenAI nói ngược lại. Khi rào cản truy cập bị gỡ bỏ (mọi nhân viên đều có quyền dùng, không cần xin phép IT), phòng ban phi kỹ thuật chuyển đổi nhanh hơn.

Điều này gợi ý rằng nút thắt chưa bao giờ là năng lực kỹ thuật. Nút thắt là quyền được phép dùng. Khi một tổ chức vẫn đang hỏi “phòng nào nên dùng AI trước?”, họ đang giải sai bài. Câu hỏi đúng là “ai đang bị chặn khỏi công cụ, và tại sao?”

Với bối cảnh Việt Nam, hàm ý khá trực tiếp. Các tập đoàn lớn vẫn đang xếp hàng triển khai: IT trước, rồi vận hành, rồi kinh doanh, rồi cuối cùng mới tới pháp chế và tài chính. Dữ liệu OpenAI gợi ý thứ tự đó có thể đang lãng phí thời gian. Pháp chế và tài chính không cần đợi IT mở đường. Họ cần quyền truy cập.

Con số vắng mặt

Bài nghiên cứu của OpenAI đo rất nhiều thứ. Lượng token đầu ra. Số giờ agent chạy. Tỷ lệ phòng ban áp dụng. Tốc độ tăng trưởng. Phân vị sử dụng. Dữ liệu phong phú, trình bày rõ ràng, phương pháp minh bạch.

Nhưng có một con số không xuất hiện ở bất kỳ đâu trong bài: tỷ lệ lỗi.

Bạn không đọc nhầm. Một bài nghiên cứu đo lường mức độ sử dụng agent tại một tổ chức hàng trăm người, với hàng triệu token đầu ra mỗi tuần, không báo cáo tỷ lệ task hoàn thành, tỷ lệ phải làm lại, hay tỷ lệ output bị từ chối.

Mình không nói OpenAI cố giấu. Có thể họ có dữ liệu chất lượng nội bộ nhưng chọn không công bố. Có thể phương pháp đo chất lượng agent output chưa chuẩn hoá đủ để công bố. Nhưng sự vắng mặt đó tạo ra một lỗ hổng cấu trúc trong toàn bộ câu chuyện: bạn biết mọi người dùng agent nhiều hơn, nhưng bạn không biết output đó có đáng dùng không.

Tăng 56 lần token sử dụng có thể là tăng 56 lần năng suất. Hoặc tăng 56 lần lượng text mà không ai đọc lại. Đo token mà không đo chất lượng giống như đo doanh thu mà không đo lợi nhuận. Số to, nghĩa chưa chắc.

Khi luật sư viết code

Quay lại xu hướng thứ tư: hơn 25% output của nhân viên khối kinh doanh là code. Bài nghiên cứu trình bày điều này như một bước tiến (agent giúp giảm chi phí vượt ranh giới chuyên môn). Và đúng, nó là bước tiến. Một nhân viên pháp chế giờ có thể tự viết script phân tích hợp đồng thay vì đợi 3 tuần để IT xếp lịch.

Nhưng câu hỏi tiếp theo rất thực: ai review code đó?

Khi một kỹ sư viết code, có quy trình review: đồng nghiệp đọc lại, CI/CD chạy test, staging environment kiểm tra trước khi lên production. Khi một luật sư viết code qua agent, quy trình review đó không tồn tại sẵn. Luật sư không đọc được code mình vừa tạo ra. Phòng IT không biết luật sư đang tạo code. Kết quả: code chạy, nhưng không ai xác nhận nó chạy đúng.

Đây là mặt trái cấu trúc của “ranh giới chuyên môn tan rã.” Mở rộng khả năng tạo ra output là có giá trị. Nhưng chỉ khi hạ tầng kiểm tra output mở rộng theo. Nếu không, bạn đang xây nợ kỹ thuật (technical debt) ở tốc độ 137 lần so với trước đây, bởi chính những người chưa từng biết nợ kỹ thuật là gì.

Sản phẩm cũ, bài toán mới

OpenAI đo rất giỏi. 99,8%. 137 lần. 56 lần. 60 giờ mỗi ngày. Bốn xu hướng, hàng chục biểu đồ, phương pháp đo rõ ràng. Chatbot đã mất vị trí số 1 tại chính công ty tạo ra nó, và dữ liệu không còn chỗ nào để tranh cãi.

Nhưng câu tiếp theo của La Quán Trung không ai trích. Sau “hợp lâu tất phân, phân lâu tất hợp” là cả một cuốn tiểu thuyết hàng nghìn trang về cái giá của mỗi lần chuyển giao. Mỗi thế lực mới chiếm lĩnh với tốc độ ấn tượng, nhưng tốc độ chưa bao giờ đảm bảo cho chất lượng vận hành.

Kỷ nguyên agent đã bắt đầu. Tốc độ chuyển giao thì đo rồi. Còn chất lượng vận hành, con số quan trọng nhất, vẫn chưa ai đếm.

Visited 4 times, 4 visit(s) today

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30