Đánh giá kết quả Evaluating the Results
Giả sử bạn tiến hành một thử nghiệm được thiết kế tốt và bây giờ bạn đã có kết quả. Trong tâm lý học, kết quả thông thường bao gồm sự khác biệt đáng kể giữa các cá nhân tham gia thí nghiệm. Có thể hầu hết những người trong nhóm thử nghiệm hành động theo một cách và hầu hết những người trong nhóm đối chứng hành động theo một cách khác, nhưng cả hai nhóm đều không nhất quán hoàn toàn. Chúng ta cần một số hướng dẫn về cách quyết định xem liệu sự khác biệt có đáng để xem xét một cách nghiêm túc và kỹ lưỡng hay không.
Thống kê mô tả Descriptive Statistics
Đầu tiên, nhà nghiên cứu tóm tắt kết quả bằng các số liệu thống kê mô tả (descriptive statistics), là những tổng hợp toán học về kết quả. Chúng ta quan tâm đến điểm trung tâm — nghĩa là trung bình hoặc trung vị. Ba cách thể hiện điểm số trung tâm là trung bình, trung vị và trị số (mode). Giá trị trung bình (mean) là tổng của tất cả các điểm chia cho tổng số hạng. Khi mọi người nói “trung bình”, họ thường đề cập đến giá trị trung bình. Ví dụ, giá trị trung bình của 2, 10 và 3 là 5 (15:3). Giá trị trung bình đặc biệt hữu ích nếu điểm số gần đúng với phân phối chuẩn – normal distribution (hoặc đường cong chuẩn – normal curve), một tần số đối xứng của các điểm số được nhóm xung quanh giá trị trung bình.
Tuy nhiên, giá trị trung bình có thể gây hiểu lầm. Ví dụ, mọi thành viên trong gia đình tôi đều có số lượng tay và chân lớn hơn mức trung bình! Đúng rồi. Hãy suy nghĩ về nó. Số tay hoặc chân bình quân (trung bình) của một người là bao nhiêu? Nó không phải là 2, mà là 1.99. . . bởi vì một số người đã bị cắt cụt tay hoặc chân. Vì vậy, nếu “trung bình” đề cập đến giá trị trung bình, hầu hết mọi người đều có thể đạt trên hoặc dưới mức trung bình. Đây là một ví dụ khác: Một cuộc khảo sát đã hỏi mọi người rằng họ hy vọng có bao nhiêu bạn tình lý tưởng nhất, trong 30 năm tới. Trung bình ở nữ là 2,8 và trung bình ở nam là 64,3 (L. C. Miller & Fishkin, 1997). Tuy nhiên, điều đáng nói về kết quả này, đó là, gần hai phần ba phụ nữ và khoảng một nửa nam giới trả lời “1.” Họ chỉ muốn có một mối quan hệ yêu đương với một đối tác. Số người tham gia khảo sát còn lại, là những người nói rằng họ hy vọng vào một vài đối tác, một số ít đàn ông trong số đó, nói rằng họ hy vọng hàng trăm hoặc hàng nghìn. Kết quả là trung bình là 64,3 cho tất cả các đàn ông khi tìm kiếm một người bạn tình, là một con số gây hiểu nhầm.
Khi phân bố dân số không đối xứng, chúng ta nên trình bày về các điểm số điển hình bằng số trung vị (median) thay vì giá trị trung bình. Để xác định giá trị trung bình, hãy sắp xếp các điểm số theo thứ tự từ giá trị cao đến thấp nhất. Điểm giữa là điểm trung tâm. Ví dụ, đối với tập hợp điểm 2, 10 và 3, trung vị là 3. Đối với tập hợp điểm 1, 1 và 950, trung vị là 1. Điểm cực ảnh hưởng rất nhiều đến giá trị trung bình nhưng không ảnh hưởng đến trung vị.
▲ Hình 2.13 Mức lương hàng tháng của 25 nhân viên của công ty X, thể hiện mức trung bình, mức trung bình và chế độ. (Sau Huff, 1954)
Cách thứ ba để biểu thị điểm số trung tâm là trị số (mode), có nghĩa điểm số thường xuyên xảy ra nhất. Ví dụ: trong phân phối điểm 1, 1, 1, 4, 7, 9 và 10, trị số là 1. Giá trị trung bình và trung vị hữu ích hơn cho hầu hết các mục đích, nhưng trị số này hướng sự chú ý đến điểm số chung.
Tóm lại: Giá trị trung bình là điều mà hầu hết mọi người nghĩ tới khi họ nói muốn đề cập đến khái niệm “trung bình”. Nó là tổng điểm chia cho tổng các số hạng. Trung vị là điểm giữa, sau khi các mức điểm đã được xếp hạng từ cao nhất đến thấp nhất. Còn trị số là điểm phổ biến nhất (xem▲ Hình 2.13).
Thống kê suy luận Inferential Statistics
Giả sử các nhà nghiên cứu chỉ định ngẫu nhiên mọi người vào hai nhóm để giúp họ bỏ thuốc lá. Một nhóm bị phạt vì hút thuốc, và nhóm còn lại nhận thưởng vì không hút thuốc. Trước khi trị liệu, cả hai nhóm trung bình hút khoảng 10 điếu thuốc mỗi ngày. Vào cuối 6 tuần trị liệu, những người trong nhóm chịu phạt, trung bình hút 7,5 điếu mỗi ngày, trong khi những người trong nhóm nhận thưởng, hút trung bình 6,5 điếu mỗi ngày. Chúng ta nên xem xét sự khác biệt này nghiêm túc như thế nào?
Để trả lời câu hỏi này, rõ ràng chúng ta cần phải biết nhiều hơn chỉ là con số 7,5 và 6,5. Có bao nhiêu người hút thuốc trong nghiên cứu? (Chỉ một vài? Hàng trăm? Hàng nghìn?) Ngoài ra, liệu hành vi của hầu hết mọi người có làm đúng hay gần chính xác với ý nghĩa cũa từng nhóm hay không?, hay một số điểm cực đoan đã làm sai lệch đi các giá trị mức trung bình thu được trong kết quả?
Chúng tôi đánh giá kết quả qua giá trị từ số liệu thống kê suy luận,đây là những kết luận rút ra về một quần thể lớn dựa trên suy luận từ một mẫu nhỏ. Trong đó, một số loại kiểm tra thống kê xác định xác suất mà biến thể, khi thu nhận kết quả, mang thuần túy tính may rủi, sẽ mang lại sự khác biệt lớn như đã quan sát bên trên. Vậy nên, các kết quả thu được cần được tóm tắt bởi một giá trị p (như trong xác suất). Ví dụ: p < 0,05 chỉ ra rằng xác suất để xảy ra các kết quả theo hướng thu được do ngẫu nhiên xuất hiện cùng với các kết quả quan sát được là nhỏ hơn 5 phần trăm. Giá trị p càng nhỏ, kết quả càng ấn tượng.
Quy tắc thông thường là, nếu p nhỏ hơn 0,05 thì các nhà nghiên cứu có thể coi các kết quả này là có ý nghĩa thống kê (statistically significant) hoặc đáng tin cậy về mặt thống kê (statistically reliable) – nghĩa là, các kết quả mà chỉ có tính may rủi sẽ không có khả năng thực hiện để ra kết quả. Ý nghĩa thống kê phụ thuộc vào ba yếu tố: quy mô của sự khác biệt giữa các nhóm, số lượng người tham gia nghiên cứu trong mỗi nhóm và mức độ biến động giữa các cá nhân trong mỗi nhóm.
Hàm ý của ý nghĩa thống kê là những kết quả như vậy có giá trị đáng để lưu tâm và cũng đáng để cố gắng giải thích chúng. Tuy nhiên, nếu ta nói rằng tính may rủi nếu tính riêng ra, sẽ khó có khả năng tạo ra kết quả, nhưng như vậy không có nghĩa là, bản thân tính may rủi không có khả năng tạo ra những kết quả này. Nghe có vẻ như những câu nói đó có thể có cùng ý nghĩa, nhưng không phải vậy. Ví dụ, giả sử bạn lật đồng xu 6 lần và bạn nhận được 6 đầu liên tiếp. Cơ hội thuần túy tạo ra một chuỗi như vậy ít hơn 5% số lần thử, nhưng trong trường hợp này, chúng tôi biết rằng là thực sự có cơ hội đã tạo ra kết quả này (giả sử rằng đó là một đồng xu bình thường). Một ví dụ khác: Một người đàn ông ở Bosnia, Radivoke Lajic, sở hữu ngôi nhà bị thiên thạch rơi vào tới 6 lần (xem ▲ Hình 2.14). Một thiên thạch rơi vào một ngôi nhà là một sự kiện hiếm gặp, và cơ hội xảy ra sáu sự kiện như vậy, trong trường hợp này, theo nghĩa đen là không tưởng. Vì vậy, chúng tôi là 99,99999. . . phần trăm chắc chắn rằng nó không phải là một sự trùng hợp? Không. Những sự trùng hợp cực kỳ khó xảy ra thì đôi khi vẫn xảy ra. Nếu kết quả này không phải do ngẫu nhiên, thì sao? Lajic tin rằng người ngoài hành tinh đã chọn anh ta để tấn công. Nếu vậy, tại sao? Và tại sao họ lại tấn công anh ta mà không phải những người nhỏ xíu như tôi? Sự trùng hợp ngẫu nhiên không có khả năng xảy ra nhiều mời gọi chúng ta tìm kiếm lời giải thích, nhưng nó không đảm bảo rằng chúng ta sẽ tìm ra lời giải thích. Cho đến khi hoặc trừ khi chúng ta làm vậy, tính may rủi vẫn là một lời giải thích hợp lý. (Bên cạnh đó, việc hỏi xác suất để sáu thiên thạch rơi trúng nhà bạn là một câu hỏi sai. Câu hỏi hay hơn là, “Xác suất mà một số các sự kiện có tính cực đoan và kỳ lạ tận cùng có thể xảy ra, ở đâu đó và vào một thời điểm nào đó, là bao nhiêu?”)
Mặc dù một quy trình mang lại giá trị p đã phổ biến trong hầu hết lịch sử tâm lý học, nhưng sự phản đối đối với nó ngày càng tăng (Cumming, 2014). Một ý kiến phản đối là nó ngụ ý sai về một nhận định mà tất cả các giá trị có thể là tất cả hoặc không có gì: Hoặc một cái gì đó là quan trọng, hoặc nó không. Thực tế hơn, các kết quả trải liên tục từ thuyết phục đến không ấn tượng. Ý kiến phản đối thứ hai là chúng ta nên quan tâm đến quy mô của hiệu ứng, chứ không chỉ là xác suất nó có xảy ra hay không. Cứ cho là chúng ta đã nghên cứu trên một mẫu đủ lớn, vẫn có khả năng xảy ra tình huống mà giá trị p là thấp, dù cho khảo sát về một hiệu ứng nhỏ và không có tính thực tế quá cao.
Vì lý do này, lý do khác, một xu hướng ngày càng tăng là các nhà nghiên cứu đưa ra các giá trị trung bình và khoảng tin cậy 95% ( 95 percent confidence intervals) cho mỗi nhóm, như thể hiện trong ▼ Hình 2.15 (Cumming, 2008). Khoảng tin cậy 95% là phạm vi mà giá trị trung bình thực nằm trong đó, với độ chắc chắn 95%.
“Chờ một chút,” bạn phản đối. “Chúng ta đã biết các giá trị trung bình: 7,5 và 6,5. Đó không phải là giá trị “đúng ” chứ là cái gì? Không, đó là những bình quân cho các mẫu dân số cụ thể. Một người nghiên cứu nhóm khác có thể không nhận được kết quả tương tự. Những gì chúng tôi quan tâm là ý nghĩa cho tất cả mọi người. Việc xác định giá trị trung bình đó là không thực tế, nhưng nếu chúng ta biết giá trị trung bình của mẫu, kích thước của mẫu và lượng biến thiên giữa các cá thể (được đo bằng một thuật ngữ gọi là độ lệch tiêu chuẩn), chúng ta có thể ước tính mức độ gần của trung bình mẫu, có lẽ, là trung bình dân số.
Trong Hình 2.15a, khoảng tin cậy 95 phần trăm là nhỏ. Nói cách khác, với các mẫu lớn, và sự đa dạng của các thành phần của mẫu thiên nhỏ, và trung bình mẫu có thể gần với trung bình dân số thực. Trong Hình 2.15b, khoảng tin cậy lớn hơn, vì vậy trung bình mẫu chỉ là xấp xỉ của trung bình tổng thể thực. Trình bày dữ liệu với khoảng tin cậy cho phép người đọc tự đánh giá mức độ khác biệt lớn và ấn tượng giữa các nhóm (Hunter, 1997; Loftus, 1996).
Kiểm tra kiến thức Chúng ta nên ấn tượng hơn với kết quả khi khoảng tin cậy 95% là lớn hay nhỏ? Chúng ta nên ấn tượng hơn nếu giá trị p lớn hay nhỏ? |
Vấn đề lặp lại Replicability Issues
Đây là một nghiên cứu giả thuyết. Hãy hy vọng rằng không ai đã từng làm điều gì ngớ ngẩn như thế này, nhưng thí nghiệm này lại minh họa một điểm quan trọng trong quá trình nghiên cứu. Tiến sĩ Hope đo lường thời gian 100 sinh viên đại học có thể giữ thăng bằng trên một chân khi nhắm mắt. Sau đó, ông kiểm tra xem có sự khác biệt giữa nam và nữ hay không. Kết quả là có sự khác nhau, ông nhận định như vậy, trung bình thì không có sự khác biệt. Vậy, nếu trường hợp khách thể là sinh viên năm nhất và sinh viên ưu tú? Người cao so với người thấp? Chuyên ngành khoa học so với chuyên ngành nhân văn? Từng người một, ông đã thử nhiều phương pháp khác nhau, tìm thấy rất ít hoặc không có sự khác biệt. Sau đó, ông đã chạy một so sánh khác và nhận thấy rằng những người có họ gần cuối bảng chữ cái có thể cân bằng lâu hơn những người ở gần đầu bảng chữ cái, với các khoảng nghĩa là p, 0,05 và 95% không trùng nhau. Aha! Có thể những người gần cuối bảng chữ cái đã quen với việc đứng xếp hàng trong một thời gian dài khi người ta xếp hàng theo thứ tự bảng chữ cái, nên họ đã phát triển kỹ năng này. Đó là một phát hiện mới! Thật đáng để ăn mừng! Ồ, nhưng mà đợi đã. Nếu bạn kiểm tra đủ nhiều giả thuyết, bạn sẽ tăng cơ hội xác nhận mọt hoặc nhiều giả thuyết chỉ là tình cờ. Sự khác biệt được báo cáo có thể đại diện cho một sự dao động ngẫu nhiên trong dữ liệu, không hơn gì nữa (Nuzzo, 2014).
Điều gì sẽ xảy ra nếu Tiến sĩ Hopeful chỉ kiểm tra một giả thuyết này, liên quan đến tên ở đầu hoặc cuối bảng chữ cái? Kết quả vẫn có nguy cơ nghiêm trọng trở thành là một kết quả thu được do biến động ngẫu nhiên. Các nhà nghiên cứu trên khắp thế giới đã thực hiện một số lượng lớn các nghiên cứu, và một số nghiên cứu trong số đó đã tạo ra những kết quả ấn tượng. Các nhà khoa học hiếm khi công bố những kết quả không ấn tượng. Vì vậy, trong số tất cả các kết quả đã được công bố, một số kết quả — chúng tôi không biết là bao nhiêu — có lẽ là những phát hiện có tính tình cờ thôi. Do vậy, chúng ta nên hoài nghi về bất kỳ kết quả nghiên cứu nào cho đến khi nó được lặp đi lặp lại, điều này còn đặc biệt nên làm nếu chúng ta không có lý do lý thuyết chính đáng để tin vào các kết quả đó.
Thật không may, bất chấp tầm quan trọng đã được đồng ý của việc lặp lại các kết quả thí nghiệm, không nhiều nhà tâm lý học cố gắng khả lặp những phát hiện của người khác (Pashler & Harris, 2012). Vấn đề tương tự cũng xảy ra trong các lĩnh vực khác. Các nhà nghiên cứu khoa học thần kinh và y học đều không hẳn là quan tâm lắm đến việc có bao nhiêu kết quả được công bố có thể là kết quả là do cờ phát hiện, hoặc đây là những kết quả nói quá lên về các tác động không đáng kể (Tsilidis et al, 2013).
Tuy nhiên, thói quen đã thay đổi. Ngày càng có nhiều nhà khoa học kêu gọi cố gắng tái lặp một kết quả, sử dụng chính xác quy trình giống như nghiên cứu ban đầu (Simons, 2014), và một số tạp chí đã đồng ý công bố kết quả, bất kể chúng có thể là gì. Ngay từ đầu, 36 phòng thí nghiệm trên một số quốc gia đã cố gắng sao chép 13 thí nghiệm tâm lý nổi tiếng, mỗi thí nghiệm đều đủ ngắn gọn để tiến hành nhanh chóng. Trong số 13 kết quả, 10 kết quả đã lặp lại được một cách thuyết phục, một kết quả khác thì lặp lại được qui trình kết quả yếu hơn so với báo cáo gốc ban đầu, còn lại hai kết quả luôn thất bại khi được lặp lại. (Klein et al, 2014).
Vậy, ý nghĩa của việc các nhà nghiên cứu không thể lặp lại kết quả là gì? Câu trả lời đơn giản nhất đó là, có thể là do kết quả ban đầu là được nghiên cứu ra là do một yếu tố ngẫu nhiên hoặc đây là một kết quả lỗi, nhưng cũng có thể có những câu trả lời khác. Một lần thất bại trong việc tái lặp một kết quả có thể không có nghĩa gì, đặc biệt là nếu nghiên cứu thứ hai có một số lượng người tham gia nhỏ hoặc các thang đo không chính xác (Lakens & Evers, 2014; Stanley & Spence, 2014). Sự thất bại lặp lại nhiều lần có thể có nghĩa là tác động phụ thuộc vào các điều kiện đặc biệt (Cesario, 2014; Stroebe & Strack, 2013). Ví dụ, yêu cầu phụ nữ trẻ ở Hoa Kỳ đọc to danh sách các từ “tục tĩu” đã gây ra sự ngượng ngùng dữ dội từ nhiều năm trước, nhưng ngày nay chủ yếu mang lại tiếng cười. Các kết quả ban đầu là đúng, nhưng chúng không thể được lặp lại vì thời gian đã thay đổi. Đôi khi những thay đổi tinh tế trong các qui trình thí nghiệm lại tạo ra được những sự khác biệt lớn. Đối với một số loại thí nghiệm với chuột, các nhà nghiên cứu nữ nhận được kết quả khác với các nhà nghiên cứu nam. Nguyên nhân là do chuột có phản ứng căng thẳng với mùi của con đực, kể cả là con người. Chỉ cần sự có mặt của chiếc áo phông mà một người đàn ông mặc qua đêm ở gần đó cũng làm tăng phản ứng căng thẳng của chuột (Sorge et al., 2014). Tuy nhiên, chúng ta cần biết liệu một kết quả có dễ lặp lại hay không. Nếu các lý thuyết chỉ có thể xảy ra trong những điều kiện nhất định, chúng ta cần biết những điều kiện đó là gì. Và nếu chúng ta không thể tìm ra được rằng trong các điều kiện nào, thì một kết quả nhất quán sẽ xảy ra thường xuyên nhất. Nếu chúng ta không thể tìm thấy điều kiện nào mà kết quả luôn xảy ra, chúng ta nên bỏ qua nó trong lý thuyết và trong thực tế (Simons, 2014).
Source: Kalat, J. W. (2017). Introduction to psychology (11ed). Boston, MA: Cengage Learning.