Box & Whisker – tránh bẫy trung bình
1.Bẫy trung bình rất là nguy hiểm (thì bẫy là phải nguy hiểm rồi, không sao bẫy được ai :D). Giả sử mình chạy 2 game với 3 channel khác nhau có được số liệu như sau (bạn có thể thay chữ game = mặt hàng, install = giá để bán một mặt hàng trong ngày)
Thế rồi, mình chỉ việc báo cáo với anh sếp “Anh, tuần này ok anh, giá trung bình mua install vẫn giữ nguyên 0.51$/install mà volume chỉ giảm có xíu xiu, chưa tới 10% anh.” Vậy là ăn ngon ngủ yên cho tới tiếp tận tuần sau. Thế nhưng nếu nhìn kỹ cái bảng này thì đâu có nhiều 0.5$ đúng không? có tận 0.7,0.8, 1.2 và cũng có tận 0.1,0.2 cơ mà?
2.Nếu muốn nhìn đơn giản thì cái gì nó cũng đơn giản. Nếu muốn nhìn phức tạp thì nó sẽ rất phức tạp. Nếu muốn nhìn cái phức tạp một cách đơn giản hơn thì sao? Vẽ chart. Vẽ lại cái bảng lúc nãy nhé.
Đường chấm đen ở giữa đại diện cho giá trị trung bình đã báo cáo với anh sếp đẹp trai. Tuy vậy, nếu nhìn biểu đồ box & whisker này, mình sẽ thấy đường này không đại diện cho những gì thực sự cần nói. Giá FB với Game1 cao hơn trung bình, GG với Game1 thấp… Ngoài ra, Game1 kênh FB có giá cao bất thường, GG thì có đột biến về giá (outlier). Vậy là phải hỏi TẠI SAO? Phải luôn hỏi tại sao. Chứ không đơn giản như một câu nói lúc đầu nữa rồi.
3.Biểu đồ box & whisker trên có vẻ khoa học, tuy vậy nó lại chỉ là biểu đồ về CPI nên thiếu mất một thứ quan trọng – volume (tương ứng với trọng số). Trọng số/volume sẽ trả lời cho bạn những câu hỏi như tại sao chỉ có mỗi một kênh là GG/Game1 có giá thấp hơn trung bình nhưng lại kéo trung bình xuống? Thường thì mình sẽ fix bằng cách thêm volume vào để coi luôn như thế này:
Vậy là mình biết là Game2/FB giá tuy cao nhưng volume thực ra không cao nên không kéo giá lên. Nếu ghép bảng này so với bảng của tuần trước nữa, mình (và anh sếp) có vẻ sẽ có một bức tranh tốt hơn một câu nói trung bình ban đầu.
4.Thay vì sử dụng một chỉ số duy nhất là trung bình, box & whisker sử dụng 5 chỉ số khác nhau để mô tả một dãy số (min, max, median, Q1,Q3). Ví dụ với Game1-FB, mình có thể nói giá mua dao động từ 0.4 tới 0.75, 50% các ngày có giá trong khoảng 0.45 tới 0.75.
Cái này có thể vẽ bằng Excel, bằng tool miễn phí trên web như mình (mình xài plot.ly) và cũng có thể mở rộng tới các biểu đồ 7 điểm hoặc 9 điểm (Stanine). Mà đối với mình, 5 điểm cũng advance rồi. Mấy điểm hay không không quan trọng bằng có xài hay không ^^
Viết bài này để nói về một điểm có nhắc tới trong hội thảo sách “Hiểu số để tăng số“. Visualize dữ liệu rất là quan trọng, các bạn có thể đọc thêm một cuốn sách mình rất khoái là cuốn “Storytelling with data” của một chị từng làm Google (bạn nào xài Google Analytics là sẽ có sử dụng qua các biểu đồ mà chị ấy đã tối ưu). Và cần practise liên tục, làm gì cũng cố gắng hiểu rõ tại sao mình làm – nhiều khi mình cũng không hiểu tại sao mình làm đâu cơ mà vẫn phải cố mà suy nghĩ ra lý do vậy 😀
Nếu muốn coi thêm về biểu đồ này, bạn có thể coi ở link này hoặc lên Youtube mà kiếm, nhiều lắm. Một link khác nói về chuyện so hai biểu đồ này ntn cũng khá ok.
P/S : nếu muốn biểu diễn số liệu theo dạng time-series để coi trend thì cái bài này không liên quan nhé :D. Bài này chỉ nói về hai chữ “trung bình” thôi ạh.
3 thoughts on “Box & Whisker – tránh bẫy trung bình”
Nếu dùng Mean phải có thêm standard deviation để biết mức độ đồng đều của các mẫu trong tổng thể. Hoặc kiểm định bằng One-sample T-Test hay Onway – Anova
Yep bạn, chỉ cần mọi người có thói quen nói trung bình mà đi kèm +/- stdev là đã tốt hơn nhiều rồi.
thanks a <3