Thorndike và điều kiện hóa từ kết quả

Điều kiện hóa từ kết quả

Operant Conditioning

Giả sử một gia đình ở quốc gia khác đã nhận nuôi bạn khi mới sinh. Sau đó, bạn sống ở một vùng đất có ngôn ngữ, phong tục, ẩm thực, tôn giáo khác, v.v. Chắc chắn bạn sẽ khác theo nhiều cách. Nhưng liệu “bạn” thay thế đó có điểm gì chung với “bạn” hiện tại không? Hay văn hóa và môi trường của bạn có nhào nặn hoàn toàn hành vi của bạn không? Tuyên bố cực đoan nhất của quyết định luận/thuyết tất định môi trường đến từ John B.Watson, một trong những người sáng lập ra chủ nghĩa hành vi, đã nói rằng:

“Hãy cho tôi một tá trẻ sơ sinh khỏe mạnh, có hình thức tốt và thế giới riêng của tôi để nuôi dưỡng chúng và tôi đảm bảo sẽ nhận ngẫu nhiên bất kỳ đứa trẻ nào và huấn luyện chúng trở thành bất kỳ chuyên gia nào mà tôi có thể chọn— bác sĩ, luật sư, nghệ sĩ , thương gia, và vâng, thậm chí là tên trộm, ăn mày – bất kể tài năng, thiên hướng, khuynh hướng, khả năng, nghê nghiệp và chủng tộc của tổ tiên. Tôi đang vượt ra ngoài thực tế của mình và tôi thừa nhận điều đó, nhưng những người ủng hộ điều ngược lại cũng vậy.” (1925, tr. 82)

Không cần phải nói, Watson không bao giờ có cơ hội để chứng minh quan điểm của mình. Không ai cho ông một đứa trẻ và thế giới cụ thể của riêng ông. Nếu ông hoặc bất kỳ ai khác thực sự kiểm soát hoàn toàn môi trường, liệu có thể kiểm soát số phận cuối cùng của một đứa trẻ không? Chúng ta có thể không bao giờ biết, rốt cuộc thì đạo đức là gì. Tuy nhiên, một trong những mục tiêu của các nhà nghiên cứu khi nghiên cứu việc học tập là xem những loại thay đổi hành vi nào là kết quả của những thay đổi trong môi trường.

 

Thorndike và điều kiện hóa từ kết quả

Thorndike and Operant Conditioning

Điều kiện hóa từ kết quả: là quá trình kiểm soát tốc độ/tỉ lệ của một hành vi thông qua kết quả của nó.

Không lâu trước nghiên cứu của Pavlov, Edward L. Thorndike (1911/1970), một sinh viên tốt nghiệp Harvard, bắt đầu huấn luyện mèo trong tầng hầm. Truyền rằng các thí nghiệm trước đó chỉ đề cập đến trí thông minh của động vật chứ không phải sự ngu ngốc của động vật, ông tìm kiếm một cách giải thích đơn giản của nhà hành vi học về việc học. Ông đặt mèo vào các hộp xếp hình (xem ▼ Hình 6.10) để chúng có thể thoát ra ngoài bằng cách nhấn cần, kéo dây, nghiêng cột hoặc các cách khác. Đôi khi, ông đặt thức ăn bên ngoài hộp, nhưng thông thường, mèo chỉ tìm cách để thoát khỏi hộp. Mèo học cách tạo ra bất kỳ hành động nào mà mở được hộp, đặc biệt nếu hộp mở nhanh.

Mèo đã học bằng cách thử và sai. Khi con mèo phải nghiêng cột để thoát ra khỏi hộp, ban đầu, nó có thể ngoạm hoặc gặm cửa, cào tường hoặc chạy tới lui. Cuối cùng, nó va vào cột và cánh cửa mở ra. Lần tiếp theo, con mèo có những hành vi tương tự nhưng có thể sẽ va vào cột sớm hơn một chút. Trải qua nhiều lần thử thách, con mèo dần cải thiện được tốc độ chạy trốn của mình nhưng theo những cách không nhất quán. ▲ Hình 6.11 cho thấy một đường cong học tập để thể hiện hành vi này. Đường cong học tập (learning curve) là một biểu đồ về những thay đổi trong hành vi xảy ra trong quá trình học tập.

Con mèo có hiểu mối liên hệ giữa việc va vào cột và mở cửa không? Không, Thorndike nói. Nếu một lúc nào đó con mèo có được một hiểu biết mới, thì cuộc chạy trốn của nó hẳn sẽ nhanh chóng kể từ thời điểm đó. Biểu đồ về thời gian trốn thoát của mèo không có dấu hiệu rõ ràng mà chúng ta có thể xác định là thời điểm của một sự thông hiểu sâu sắc.

Thorndike kết luận rằng việc học tập xảy ra bởi vì một số hành vi nhất định được củng cố dẫn đến sự mất đi của những hành vi khác. Một con vật tham gia vào một tình huống với một loạt các phản ứng như đập cửa, cào tường, đi qua đi lại, v.v. (kí hiệu R1, R2, R3, v.v., trong ▼ Hình 6.12). Nó bắt đầu với phản ứng dễ xảy ra nhất (R1). Nếu không có gì đặc biệt xảy ra, nó sẽ tiếp tục các phản ứng khác, cuối cùng đạt đến một phản ứng mở cánh cửa ra — ví dụ: va vào cột (R7 trong ví dụ này). Hành vi mở cửa củng cố hành vi trước đó.

Củng cố (reinforcement)quá trình tăng xác suất trong tương lai của phản ứng gần đây nhất. Thorndike nói rằng sự củng cố “đánh dấu” hoặc làm mạnh hành vi phản ứng. Lần tới khi con mèo ở trong hộp xếp hình, nó có xác suất hành vi phản hồi hiệu quả cao hơn một chút. Nếu nó nhận được sự củng cố một lần nữa, xác suất tăng lên một bậc khác (xem Hình 6.12). Bạn thấy cách mà quan điểm này phù hợp với mong muốn của các nhà hành vi học về một lời giải thích không dựa trên suy nghĩ, sự hiểu biết hoặc các quá trình tinh thần khác

Thorndike đã tóm tắt quan điểm của mình trong luật kết quả (the law of effect) (Thorndike, 1911/1970, trang 244):

“Trong số một số phản ứng được thực hiện cho cùng một tình huống, những hành vi phản ứng đi cùng hoặc theo ngay sau là sự thỏa mãn ý muốn của con vật, những thứ khác là như nhau, sẽ được kết nối chặt chẽ hơn với tình huống, do đó, khi nó tái diễn, chúng sẽ có nhiều khả năng tái diễn.”

Do đó, con vật có nhiều khả năng lặp lại các phản ứng dẫn đến kết quả thuận lợi ngay cả khi nó không hiểu tại sao. Tương tự, một cỗ máy có thể được lập trình để tạo ra các phản ứng ngẫu nhiên và lặp lại các phản ứng dẫn đến sự củng cố.

Cách giải thích của Thorndike có đúng không? Một cách khác để đặt câu hỏi này: Khi một con vật học cách thực hiện một phản ứng tạo ra một kết quả nào đó, nó có “mong đợi” kết quả đó không, hay chỉ đơn giản ghi lại rằng “Thực hiện phản ứng này trong tình huống này”? Nói chung, rất khó để trả lời câu hỏi này (Burke, Franz, Miller, & Schoenbaum, 2008). Tuy nhiên, rõ ràng là động vật học được nhiều thứ hơn là chỉ chuyển động cơ bắp. Một con vật đã học cách rẽ trái, nhưng bây giờ bị suy giảm chức năng cơ ngăn cản việc rẽ trái, thay vào đó sẽ xoay 270 ° sang phải, vẫn đạt được kết quả tương tự (Seligman, Railton, Baumeister, & Sripada, 2013).

Thorndike đã tạo ra một cuộc cách mạng trong việc nghiên cứu việc học của động vật, thay thế thí nghiệm cho các bộ sưu tập trong giai thoại. Ông cũng chứng minh khả năng giải thích đơn giản cho những hành vi có vẻ phức tạp (Dewsbury, 1998). Về mặt tiêu cực, ví dụ của ông về việc nghiên cứu động vật trong các tình huống phòng thí nghiệm phức tạp đã khiến các nhà nghiên cứu bỏ qua nhiều điều về cách động vật học trong tự nhiên (Galef, 1998)

Hình thức học tập mà Thorndike đã nghiên cứu được gọi là điều kiện hóa từ kết quả ( operant conditioning) (vì chủ thể hoạt động dựa trên môi trường để tạo ra kết quả) hoặc điều kiện hóa công cụ (instrumental conditioning) (vì hành vi của chủ thể là công cụ tạo ra kết quả). Điều kiện hóa từ kết quả hay Điều kiện hóa công cụ (Operant or instrumental conditioning), là quá trình thay đổi hành vi bằng cách đưa ra một tác nhân củng cố sau một phản ứng. Sự khác biệt xác định giữa điều kiện hóa từ kết quả và điều kiện hóa cổ điển là quy trình: Trong điều kiện hóa từ kết quả, hành vi của chủ thể tạo ra một kết quả ảnh hưởng đến hành vi trong tương lai. Trong điều kiện hóa cổ điển, hành vi của chủ thể không ảnh hưởng đến kết quả (thể hiện của cả CS hoặc UCS). Ví dụ, trong điều kiện hóa cổ điển, người thực nghiệm (hoặc thế giới) đưa ra hai kích thích vào những thời điểm cụ thể, bất kể đối tượng làm hay không làm gì. Các kích thích đó thay đổi các hành vi trong tương lai, nhưng các hành vi đó không kiểm soát các kích thích. Trong điều kiện hóa từ kết quả, đối tượng phải thực hiện một số phản ứng trước khi có bất kỳ kết quả nào xảy ra.

Nói chung, hai loại điều kiện hóa trên cũng ảnh hưởng đến các hành vi khác. Điều kiện hóa cổ điển áp dụng chủ yếu cho các phản ứng của nội tạng ( visceral responses) (tức là phản ứng của các cơ quan nội tạng), chẳng hạn như tiết nước bọt và tiêu hóa, trong khi điều kiện hóa từ kết quả áp dụng chủ yếu cho các phản ứng của hệ cơ xương khớp (skeletal responses) (tức là các chuyển động của cơ chân, cơ cánh tay, v.v.). Tuy nhiên, sự phân biệt này đôi khi bị phá vỡ. Ví dụ, nếu một âm thanh dự đoán một cú sốc điện (một quy trình điều kiện hóa cổ điển), thì âm thanh sẽ khiến con vật tê liệt tại vị trí (phản ứng của xương) cũng như làm tăng nhịp tim (phản ứng nội tạng).

Source: Kalat, J. W. (2017). Introduction to psychology (11ed). Boston, MA: Cengage Learning.

Leave a Reply