Tác giả: Martin Tingley với Wenjing Zheng, Simon Ejdemyr, Stephanie Lane, và Colin McFarland
Thuỳ biên dịch

Đây là phần thứ 2 trong series nói về quy trình sử dụng A/B test để hỗ trợ ra quyết định tại Netflix, giúp liên tục đổi mới các sản phẩm của họ. Xem Phần 1: Quá Trình Ra Quyết Định Tại Netflix. Những phần tiếp theo sẽ đề cập sâu hơn đến số liệu thống kê của các A/B test này, thử nghiệm trên Netflix và cách Netflix đầu tư vào cơ sở hạ tầng để hỗ trợ mở rộng quy mô thử nghiệm, cũng như tầm quan trọng của văn hoá thử nghiệm đối với họ.

A/B test là một thử nghiệm có kiểm soát đơn giản. Giả sử: bạn muốn tìm hiểu xem liệu người dùng có thích thú với một trải nghiệm mới trong đó tất cả các boxart trên giao diện người dùng được lật ngược lại hay không.

Hình 1: Làm thế nào Netflix có thể quyết định được liệu Trải Nghiệm Sản Phẩm B, với các boxart được lật ngược lại, có được người dùng ủng hộ hay không?

Để chạy thử nghiệm này, một tập hợp con được chọn ra từ tổng số người dùng, đây thường là mẫu ngẫu nhiên đơn giản, và sau đó dùng phép gán ngẫu nhiên để chia tập hợp con này thành hai nhóm khác nhau. Nhóm A, thường được gọi là “Nhóm kiểm soát”, tiếp tục sử dụng giao diện truyền thống. Trong khi đó nhóm B, thường được gọi là “nhóm nghiên cứu”, nhận một trải nghiệm khác, tuỳ thuộc vào giả thuyết về việc cải thiện trải nghiệm người dùng mà Netflix đang cần chứng minh (sẽ nêu thêm nhiều ví dụ bên dưới).

Phản ứng từ người dùng được thu thập và sau đó so sánh giá trị của nhiều chỉ số khác nhau giữa nhóm A với nhóm B. Có những chỉ số sẽ được chỉ định riêng tuỳ thuộc vào giả thuyết ban đầu được đưa ra. Đối với thử nghiệm trên giao diện người dùng, mức tương tác đối với các biến thể khác nhau của tính năng mới thường là yếu tố được xem xét. Đối với một thử nghiệm nhằm cung cấp các kết quả tìm kiếm phù hợp hơn cho trải nghiệm tìm kiếm, Netflix sẽ tính xem liệu có phải người dùng tìm phim để xem thông qua công cụ tìm kiếm nhiều hơn hay không. Đối với các loại thử nghiệm khác, họ có thể tập trung hơn vào các chỉ số mang tính kỹ thuật, như thời gian tải, hay chất lượng video mà Netflix có thể cung cấp dưới những điều kiện internet khác nhau.

Hình 2: Một A/B test đơn giản. Người ta chia đôi một mẫu ngẫu nhiên chọn ra từ tổng người dùng của Netflix bằng thuật toán gán ngẫu nhiên. Nhóm A tiếp tục sử dụng trải nghiệm sản phẩm hiện tại của Netflix, còn nhóm B nhận được một số thay đổi mà theo giả thuyết ban đầu là có thể giúp cải thiện trải nghiệm của người dùng. Ở đây, giao diện người dùng của nhóm B có các boxart bị lật ngược. Sau đó, người ta so sánh các chỉ số giữa hai nhóm. Quan trọng là, thuật toán gán ngẫu nhiên đảm bảo rằng, về cơ bản, mọi chỉ số khác được giữ cố định giữa hai nhóm.

Với nhiều thử nghiệm khác nhau, bao gồm cả thử nghiệm lật ngược boxart trong ví dụ, ý nghĩa của các chỉ số này cần được xem xét một cách cẩn trọng. Giả sử nếu xem xét tỉ lệ nhấp vào (click), người ta cần biết tỉ lệ người dùng trong mỗi thử nghiệm đã nhấp vào phim đó. Nếu chỉ xem xét một mình chỉ số này thôi thì rất có thể sẽ gây ra hiểu nhầm về sự thành công hay thất bại của trải nghiệm giao diện người dùng mới. Vì cũng có khả năng là người dùng chỉ nhấp vào đó để đọc cho rõ mà thôi. Trong trường hợp này, cần xem xét thêm tỉ lệ người dùng thoát ra trên tỉ lệ người nhấn xem.

Trong mọi trường hợp, cần xem xét các chỉ số chung khác nhằm nhận định rõ niềm hứng thú và hài lòng mà Netflix mang đến cho người xem. Các chỉ số này bao gồm các thước đo về lượng tương tác với Netflix: Liệu các ý tưởng đang được thử nghiệm có thể giúp người xem chọn Netflix làm điểm đến giải trí của họ vào một tối cụ thể nào đó hay không?

Ngoài ra nó còn liên quan đến rất nhiều khía cạnh mang tính thống kê – Sự cách biệt ở mức nào thì được coi là đáng kể? Số lượng người dùng tham gia thử nghiệm là bao nhiêu để có thể phát hiện được một hiệu ứng ở một quy mô nhất định? Làm thế nào để phân tích dữ liệu một cách hiệu quả nhất? Những điều này sẽ được phân tích trong cách phầni sau, tập trung vào trực giác cấp độ cao.

Giữ mọi thứ khác không đổi

Bởi vì nhóm kiểm soát (A) và nhóm nghiên cứu (B) được tạo ra bằng cách sử dụng thuật toán gán ngẫu nhiên, người ta có thể đảm bảo rằng các cá nhân trong cả hai nhóm, về cơ bản, cân bằng trên tất cả các khía cạnh có thể ảnh hưởng đến thử nghiệm. Ví dụ, thuật toán gán ngẫu nhiên đảm bảo độ dài trung bình của membership Netflix giữa hai nhóm không quá khác nhau, cũng như tuỳ chọn nội dung, lựa chọn ngôn ngữ chính… cùng các tham số khác. Sự khác nhau duy nhất là trải nghiệm mà họ đang được thử nghiệm, đảm bảo các ước tính về tác động của trải nghiệm mới không bị sai lệch bởi các tham số khác theo bất kỳ cách nào.

Để hiểu được tầm quan trọng của nó, hãy xem xét một phương thức ra quyết định khác: Netflix có thể triển khai giao diện mới với các boxart bị lật ngược đối với toàn bộ người dùng, và đánh giá xem liệu một trong các chỉ số ở trên có sự thay đổi lớn nào không. Nếu đó là một thay đổi tích cực, hay không có bằng chứng về bất cứ thay đổi có ý nghĩa nào, người ta sẽ giữ giao diện mới. Nếu có bằng chứng về bất cứ thay đổi tiêu cực nào, người ta sẽ quay lại với trải nghiệm gốc.

Giả sử Netflix thực sự dùng cách này (xin nhắc lại đây chỉ là một giả thuyết), và chuyển đổi giao diện sang phiên bản lật ngược vào ngày 16 của một tháng nào đó. Thì bạn sẽ phản ứng như thế nào với các dữ liệu sau đây?

Hình 3: Dữ liệu giả thuyết về việc cập nhật giao diện người dùng với boxart lộn ngược vào ngày 16.

Dữ liệu có vẻ ổn: người ta phát hành trải nghiệm sản phẩm mới và mức độ tương tác tăng lên rất nhiều. Nhưng nếu bạn có các dữ liệu này, và biết rằng các boxart trên giao diện đã bị lật ngược lại, bạn sẽ tự tin đến mức nào về việc trải nghiệm sản phẩm mới thực sự tốt cho người dùng?

Liệu chúng ta có thể chắc chắn rằng trải nghiệm sản phẩm mới chính là nguyên nhân làm tăng mức độ tương tác hay không? Những khả năng khác là gì?

Nếu cũng trong thời gian đó, Netflix ra mắt một bộ phim ăn khách mới thì sao? Giờ đây chúng ta có hơn một khả năng để lý giải về nguyên nhân mức độ tương tác tăng: nó có thể là do trải nghiệm sản phẩm mới, cũng có thể là do bộ phim ăn khách kia đang xuất hiện ở mọi ngóc ngách trên internet, hoặc cũng có thể là cả hai. Hoặc cũng có thể là một cái gì đó hoàn toàn khác. Mấu chốt là chúng ta không thực sự biết rõ liệu có phải là trải nghiệm sản phẩm mới này chính là nguyên nhân làm tăng mức độ tương tác hay không.

Nếu như thay vào đó, người ta chỉ dùng A/B test với một nhóm người dùng được trải nghiệm boxart bị lật ngược (B) và một nhóm khác vẫn sử dụng giao diện bình thường (A), trong thời gian khoảng một tháng, và thu được dữ liệu như ở bên dưới đây:

Hình 4: Dữ liệu giả thuyết của A/B test đối với trải nghiệm sản phẩm mới.

Trong trường hợp này, chúng ta có đi đến một kết luận khác: Giao diện lộn ngược làm giảm mức độ tương tác (không có gì đáng ngạc nhiên ở đây) và cả hai nhóm đều cho thấy mức độ tương tác tăng lên do bộ phim mới phát hành.

A/B test cho phép chúng ta đưa ra các tuyên bố mang tính nguyên nhân – kết quả. Netflix chỉ giới thiệu trải nghiệm sản phẩm lộn ngược cho những người dùng trong nhóm B, và vì họ gán người dùng vào các nhóm A và B một cách ngẫu nhiên, mọi tham số khác của cả hai nhóm được giữ cố định. Từ đó, họ có thể kết luận với một mức độ chắc chắn cao rằng giao diện lộn ngược làm giảm mức độ tương tác.

Ví dụ giả thuyết này có hơi cực đoan, nhưng bài học ở đây là sẽ luôn tồn tại các yếu tố mà chúng ta không phải lúc nào cũng có thể kiểm soát. Nếu Netflix áp dụng thử nghiệm trên toàn bộ người dùng và chỉ đánh giá sự thay đổi trước và sau của một chỉ số duy nhất mà thôi, thì sẽ có những khác biệt có liên quan đến thời điểm thực hiện thử nghiệm và ngăn người ta đưa ra một kết luận mang tính nhân quả. Nó có thể bị ảnh hưởng bởi sự xuất hiện của một bộ phim ăn khách. Hay chính sách mới giúp lôi kéo thêm nhiều người dùng đăng ký mới vào thời điểm đó. Luôn có những yếu tố mà chúng ta không biết. Việc chạy A/B test, nếu có thể, cho phép chứng minh mối quan hệ nhân quả và giúp người ra quyết định tự tin đưa ra những thay đổi đối với sản phẩm của mình khi biết rằng người dùng đã gián tiếp chứng minh giả thuyết bằng hành vi của họ.

Mọi thứ đều bắt đầu với một ý tưởng

Một A/B test bắt đầu với một ý tưởng – một số thay đổi mà Netflix có thể thực hiện trên giao diện người dùng, hệ thống cá nhân hoá giúp người dùng tìm thấy nội dung mới để xem, quy trình đăng ký cho thành viên mới, hay bất cứ phần nào trên trải nghiệm sử dụng Netflix mà họ tin rằng sẽ tạo ra một kết quả tích cực cho người dùng. Một số ý tưởng được thử nghiệm là các đổi mới tăng dần, như là những cách để cải thiện nội dung văn bản của phim; một số tham vọng hơn, như là thử nghiệm hiển thị danh sách “Top 10” hiện đang được sử dụng.

Cũng như tất cả những đổi mới được triển khai cho người dùng trên toàn thế giới, Top 10 lúc đầu là một ý tưởng được biến thành một giả thuyết thử nghiệm. Ở đây, ý tưởng cốt lõi là hiển thị danh sách các phim phổ biến tại mỗi quốc gia có thể mang lại lợi ích cho người dùng theo hai cách. Đầu tiên, bằng cách làm nổi bật những phim đang ăn khách, Netflix có thể giúp người dùng có chung trải nghiệm và kết nối với nhau thông qua các cuộc trò chuyện về những bộ phim phổ biến. Thứ hai, chúng tôi có thể giúp người dùng chọn ra những nội dung hay để xem bằng cách đáp ứng mong muốn nội tại cơ bản của con người là được dự phần vào một cuộc trò chuyện chung,

Hình 5: một ví dụ về tính năng “Top 10” trên giao diện Netflix

Từ đó, người ta biến ý tưởng này thành một giả thuyết có thể kiểm tra được, một tuyên bố có dạng: “Nếu chúng ta có thể thực hiện thay đổi X, nó sẽ cải thiện trải nghiệm người dùng theo cách làm cải thiện chỉ số Y.” Với ví dụ về tính năng Top 10, giả thuyết là “Hiển thị Top 10 sẽ giúp người dùng tìm được nội dung mới để xem, gia tăng niềm vui và sự hài lòng của họ.” Chỉ số quyết định chính cho thử nghiệm này (cũng như nhiều thử nghiệm khác) là một thước đo mức độ tương tác của người dùng với Netflix: Liệu các ý tưởng đang được thử nghiệm có thể giúp người dùng chọn Netflix làm điểm đến giải trí cho bất kỳ đêm cụ thể nào hay không? Nghiên cứu chỉ ra rằng chỉ số này (chi tiết bị bỏ qua) là có tương quan, về lâu dài, với xác suất người dùng duy trì đăng ký Netflix. Các lĩnh vực khác cũng được thử nghiệm, chẳng hạn như trải nghiệm ở trang đăng ký hoặc cơ sở hạ tầng máy chủ, sử dụng các chỉ số quyết định chính khác nhau, mặc dù vấn áp dụng một nguyên tắc chung: những gì có thể đo lường được trong quá trình thử nghiệm có thể mang lại giá trị lâu dài cho người dùng?

Cùng với chỉ số quyết định chính cho thử nghiệm, Netflix cúng xem xét một số các chỉ số phụ khác và cách chúng bị ảnh hưởng bởi tính năng được thử nghiệm. Mục đích là chỉ ra rõ chuỗi nhân quả từ thay đổi trong hành vi của người dùng đối với trải nghiệm sản phẩm mới dẫn đến thay đổi trong tham số quyết định chính.

Việc khớp nối chuỗi nhân quả giữa thay đổi của sản phẩm và những thay đổi trong chỉ số quyết định chính, và giám sát các chỉ số phụ trong chuỗi này, giúp Netflix xây dựng sự tự tin rằng bất cứ chuyển động nào trong sự thay đổi của chỉ số quyết định chính là kết quả của chuỗi nhân quả mà họ đang giả thuyết hoá, chứ không phải là kết quả của những hậu quả không mong muốn do tính năng mới gây ra (hoặc dương tính giả – sẽ được thảo luận trong những phần tiếp theo). Đối với thử nghiệm tính năng Top 10, mức độ tương tác là chỉ số quyết định chính – nhưng Netflix cũng đánh giá các chỉ số khác như sự thay đổi của mức xem của các phim nằm trong danh sách này, tỉ lệ xem xuất phát từ mục này so với tỉ lệ xem từ các phần khác trên giao diện, cùng các chỉ số tương tự. Nếu trải nghiệm Top 10 thực sự tốt cho người dùng theo như giả thuyết, chúng tôi kỳ vọng rằng nhóm nghiên cứu sẽ cho thấy sự tăng trưởng về lượt xem đối với các phim xuất hiện trong Top 10 và nói chung là mức độ tương tác cao hơn trên mục này.

Cuối cùng là, không phải ý tưởng nào cũng được thử nghiệm thành công (và đôi khi tính năng mới có lỗi), chúng tôi cũng xem xét các chỉ số mang tính đảm bảo khác. Mục đích ở đây là hạn chế mọi hậu quả bất lợi và đảm bảo rằng trải nghiệm sản phẩm mới không có tác động ngoài ý muốn nào lên người dùng. Ví dụ, có thể so sánh các liên hệ dịch vụ khách hàng giữa nhóm kiểm soát và nhóm nghiên cứu, để đảm bảo rằng tính năng mới không làm tăng tỉ lệ người dùng liên hệ với dịch vụ khách hàng, chỉ số này có thể cho thấy rằng người dùng cảm thấy bối rối và không hài lòng (với sự xuất hiện của tính năng mới)

Kết luận

Phần này chúng ta tập trung vào việc làm rõ khái niệm A/B test, tầm quan trọng của việc thực hiện A/B test so với việc thử nghiệm trên toàn bộ người dùng và việc xem xét các chỉ số trước và sau khi thực hiện thay đổi, và cách biến một ý tưởng thành một giả thuyết có thể kiểm tra được. Trong phần sau, chúng ta sẽ nói về các khái niệm thống kê cơ bản mà Netflix sử dụng khi so sánh các chỉ số từ nhóm nghiên cứu và nhóm kiểm soát.

2 bình luận cho “Định Nghĩa A/B Test Của Netflix”

  1. Ảnh đại diện Cách Netflix Diễn Giải Kết Quả A/B test: Dương Tính Giả Và Ý Nghĩa Thống Kê – Light-Printer

    […] Phần 1: Quá Trình Ra Quyết Định Tại NetflixPhần 2: Định Nghĩa A/B Test Của Netflix […]

    Thích

  2. Ảnh đại diện Cách Netflix Diễn Giải Kết Quả A/B test: Âm Tính Giả – Light-Printer

    […] Phần 2: Định Nghĩa A/B Test Của Netflix […]

    Thích

Bình luận về bài viết này

Quote of the week

What should young people do with their lives today? Many things, obviously. But the most daring thing is to create stable communities in which the terrible disease of loneliness can be cured.

~ Kurt Vonnegut

Nếu thấy các bài viết hay và hữu ích, hãy mua cho Thuỳ một ly Marou