B. F. Skinner và Định hình phản ứng
B. F. Skinner and the Shaping of Responses
Một trong những nhà nghiên cứu tâm lý học nổi tiếng nhất, B. F. Skinner (1904–1990), đã chứng minh nhiều công dụng của điều kiện hóa từ kết quả. Skinner là một nhà hành vi tận tụy, người luôn tìm kiếm những lời giải thích đơn giản về lịch sử củng cố hơn là các quá trình tinh thần.
Một vấn đề mà bất kỳ nhà nghiên cứu hành vi nào cũng phải đối mặt là làm thế nào để xác định một phản ứng. Hãy tưởng tượng quan sát trẻ em và cố gắng đếm “các hành vi gây hấn”. Hành vi gây hấn là gì và hành vi nào không phải là hành vi gây hấn? Skinner đã đơn giản hóa phép đo bằng cách đơn giản hóa tình huống (Zuriff, 1995): Ông thiết lập một cái hộp, được gọi là phòng điều kiện hóa từ kết quả (hoặc hộp Skinner, một thuật ngữ mà Skinner không bao giờ sử dụng), trong đó một con chuột nhấn vào một cần gạt hoặc một con chim bồ câu mổ “chìa khóa” được chiếu sáng, để nhận thức ăn (xem ▼ Hình 6.14). Ông đã xác định một cách hoạt động phản ứng như bất cứ điều gì mà con vật làm để nhấn cần gạt hoặc chìa khóa. Vì vậy, nếu con chuột nhấn cần gạt bằng mõm của nó thay vì chân của nó, thì phản ứng vẫn được tính. Nếu chim bồ câu dùng cánh đập vào chìa khóa thay vì mổ bằng mỏ, phản ứng vẫn được tính. Hành vi được xác định bởi kết quả của nó, không phải bởi các chuyển động của cơ bắp.
Định nghĩa đó có lý không? Skinner trả lời rằng có lý vì nó dẫn đến kết quả nhất quán. Khi quyết định cách định nghĩa một hành vi – bất kỳ hành vi nào – thì định nghĩa tốt nhất là định nghĩa tạo ra kết quả rõ ràng nhất.
Định hình hành vi
Shaping Behavior
Khi Thorndike muốn huấn luyện mèo đẩy cột hoặc kéo dây, ông chỉ cần đặt mèo vào hộp xếp hình và chờ đợi. Skinner muốn huấn luyện chuột đẩy cần gạt và chim bồ câu mổ chìa khóa. Những hành vi này không phải là một phần của thói quen bình thường của động vật. Nếu ông chỉ đơn giản đặt một con vật vào một chiếc hộp và chờ đợi, ông có thể phải đợi rất lâu. Để tăng tốc quá trình, Skinner đã phát triển một kỹ thuật mạnh mẽ, được gọi là định hình (shaping), để thiết lập một phản ứng mới bằng cách liên tục củng cố các hành vi ngày càng giống với hành vi mục tiêu
Để định hình một con chuột để nhấn cần gạt, bạn có thể bắt đầu bằng cách củng cố chuột để đứng lên, một hành vi phổ biến ở chuột. Sau một vài lần củng cố, con chuột đứng lên thường xuyên hơn. Bây giờ bạn thay đổi quy tắc, chỉ cho thức ăn khi chuột đứng lên trong khi đối mặt với cần gạt. Ngay sau đó, nó dành nhiều thời gian hơn để đứng lên và đối mặt với cần gạt. Nó triệt tiêu hành vi đứng và quay mặt về các hướng khác bởi vì những phản ứng đó không được củng cố.
Tiếp theo, bạn chỉ đưa ra sự củng cố khi chuột đứng quay mặt về hướng chính xác trong khi ở phía nửa lồng gần cần gạt. Bạn dần dần di chuyển ranh giới, và con chuột di chuyển đến gần cần gạt hơn. Sau đó, chuột phải chạm vào cần gạt và cuối cùng, áp dụng trọng lượng lên nó. Thông qua một loạt các bước ngắn, dễ dàng, bạn định hình con chuột để nhấn vào đòn bẩy
Tất nhiên, việc định hình cũng có tác dụng với con người. Xem xét giáo dục: Đầu tiên, cha mẹ hoặc giáo viên của bạn khen ngợi khi bạn đếm đầu ngón tay. Sau đó, bạn phải cộng và trừ để được họ tán dương. Từng bước, nhiệm vụ của bạn trở nên phức tạp hơn cho đến khi bạn làm các môn toán nâng cao.
Móc nối hành vi
Chaining Behavior
Thông thường, bạn không chỉ thực hiện một hành động rồi dừng lại. Bạn thực hiện một chuỗi dài các hành động. Để tạo ra một chuỗi, các nhà tâm lý học sử dụng một quy trình gọi là móc nối hành vi (chaining). Giả sử bạn muốn huấn luyện một con ngựa biểu diễn để thực hiện một chuỗi các hành động. Bạn có thể móc nối các hành vi, củng cố mỗi hành vi để có cơ hội tham gia vào hành vi tiếp theo. Con vật bắt đầu bằng cách học hành vi cuối cùng. Sau đó, nó học hành vi tiếp theo đến hành vi cuối cùng, được củng cố bằng cơ hội thực hiện hành vi cuối cùng. Và cứ tiếp tục như thế.
Một con chuột có thể được đặt trên bệ trên cùng, như trong ▼ Hình 6.15f, nơi nó ăn. Sau đó, nó được đưa lên bệ ở giữa bằng một cái thang dẫn đến bệ trên cùng. Con chuột học cách leo lên thang. Sau đó, nó lại được đặt trên bệ giữa nhưng không có thang. Nó phải học cách kéo một sợi dây để nâng thang lên để có thể leo lên bệ cao nhất. Sau đó chuột được đặt trên bệ dưới cùng (▼ Hình 6.15a). Bây giờ nó học cách leo thang lên bệ giữa, kéo một sợi dây để nâng thang lên, rồi lại leo lên thang. Một chuỗi móc nối như thế này có thể tiếp diễn liên tục. Mỗi hành vi được củng cố với cơ hội cho hành vi tiếp theo, cho đến khi hành vi cuối cùng được củng cố bằng thức ăn.
Mọi người cũng học các chuỗi móc nối phản ứng. Bạn học cách ăn bằng dĩa và thìa. Sau đó, bạn học cách tự đặt thức ăn của mình vào đĩa trước khi ăn. Cuối cùng, bạn học cách lập thực đơn, đi đến cửa hàng, mua nguyên liệu, nấu bữa ăn, bày lên đĩa và sau đó ăn. Mỗi hành vi được củng cố bởi cơ hội tham gia vào các hành vi tiếp theo
Để cho thấy hiệu quả của việc định hình và móc nối, Skinner đã thực hiện một chứng minh: Đầu tiên, ông huấn luyện một con chuột đi đến giữa một cái lồng. Sau đó, ông huấn luyện nó làm như vậy chỉ khi ông chơi một đoạn nhạc nhất định. Tiếp theo, ông huấn luyện nó đợi tiếng nhạc, đi đến giữa lồng và ngồi dậy trên hai chân sau của nó. Từng bước một, cuối cùng ông huấn luyện chuột đợi nhạc (bài “Ngọn cờ lốm đốm hình ngôi sao”), di chuyển đến giữa lồng, ngồi lên bằng hai chân sau của nó, đặt chân của nó lên một sợi dây bên cạnh một cái cột, kéo dây treo cờ Hoa Kỳ, rồi đứng lại chào. Chỉ sau những hành động trên, con chuột mới nhận được sự củng cố của nó. Không cần phải nói, lòng yêu nước không phải là một phần trong tiết mục thông thường của lũ chuột. Vấn đề là, móc nối có thể tạo ra các hành vi phức tạp.
Lịch trình củng cố
Schedules of Reinforcement
Quy trình đơn giản nhất trong điều kiện hóa từ kết quả là cung cấp sự củng cố cho mọi phản ứng chính xác, một quy trình được gọi là củng cố liên tục. Tuy nhiên, trong thế giới thực, việc củng cố liên tục không phổ biến
Củng cố cho một số phản ứng và không củng cố cho những phản ứng khác được gọi là củng cố gián đoạn hoặc củng cố một phần. Chúng ta hành xử khác khi biết rằng chỉ một số phản hồi của chúng ta sẽ được củng cố. Các nhà tâm lý học đã nghiên cứu về tác động của nhiều lịch trình củng cố, đó là những quy tắc để mang đến sự củng cố. Ngoài củng cố liên tục, bốn lịch trình khác để cung cấp củng cố gián đoạn là tỷ lệ cố định, ngắt quãng cố định, tỷ lệ biến thiên và ngắt quãng biến thiên (xem ■ Bảng 6.3). Một lịch trình củng cố theo tỷ lệ (ratio schedule) cung cấp sự củng cố tùy thuộc vào số lần phản hồi. Lịch trình lịch trình củng cố ngắt quãng (interval schedule) cung cấp sự củng cố tùy thuộc vào thời gian phản hồi.
Lịch trình tỉ lệ cố định
Fixed-Ratio Schedule
Lịch trình theo tỷ lệ cố định chỉ cung cấp củng cố sau một số lượng phản hồi đúng (cố định) nhất định — ví dụ: sau mỗi phản ứng thứ sáu. Ví dụ bao gồm công nhân nhà máy được trả công cho mỗi mười sản phẩm họ làm ra hoặc những người hái trái cây được trả bằng giạ/đấu hoa quả.
Lịch trình tỷ lệ cố định yêu cầu một số lượng nhỏ phản hồi, chẳng hạn như hai hoặc ba, tạo ra tốc độ phản ứng ổn định. Tuy nhiên, nếu lịch trình yêu cầu nhiều phản ứng trước khi củng cố, kết quả điển hình là sự tạm dừng sau mỗi lần củng cố, và sau đó tiếp tục phản ứng ổn định. Các nhà nghiên cứu đôi khi vẽ biểu đồ kết quả với một bản ghi tích lũy: Đường thẳng bằng phẳng khi cá nhân không phản ứng và nó di chuyển lên theo từng phản ứng. Đối với một lịch trình tỷ lệ cố định yêu cầu mười phản ứng, kết quả điển hình sẽ như hình dưới đây. Lưu ý rằng số lượng phản ứng cho mỗi lần củng cố là không đổi, nhưng thời gian giữa lần củng cố này và lần củng cố khác có thể khác nhau. Trung bình, các lần tạm dừng dài hơn trong lịch trình yêu cầu số lượng phản ứng lớn hơn. Ví dụ, nếu bạn vừa hoàn thành 10 bài toán, bạn tạm dừng một thời gian ngắn trước khi bắt đầu bài tập tiếp theo. Nếu bạn phải hoàn thành 100 bài, bạn tạm dừng lâu hơn.
Lịch trình tỉ lệ biến thiên
Variable-Ratio Schedule
Một lịch trình tỷ lệ biến thiên tương tự như một lịch trình tỷ lệ cố định, ngoại trừ việc củng cố xảy ra sau một số lượng thay đổi các phản ứng đúng. Ví dụ, sự củng cố đôi khi có thể xảy ra sau một hoặc hai phản ứng, đôi khi sau năm, đôi khi sau mười, v.v. Lịch trình tỷ lệ biến thiên tạo ra tỷ lệ phản ứng ổn định.
Lịch trình tỷ lệ biến thiên, hoặc lịch trình ước chừng của nó, xảy ra bất cứ khi nào mỗi phản hồi có xác suất thành công gần như bằng nhau. Khi bạn nộp đơn xin việc, bạn có thể được tuyển dụng hoặc không. Bạn nộp càng nhiều đơn thì cơ hội của bạn càng cao, nhưng bạn không thể đoán trước được mình cần nộp bao nhiêu đơn trước khi nhận được lời mời làm việc. Cờ bạc mang lại kết quả theo một tỷ lệ thay đổi. Nếu bạn chơi xổ số, mỗi lần bạn chơi bạn có một số cơ hội trúng thưởng, nhưng bạn không thể đoán trước được mình phải chơi bao nhiêu lần trước khi trúng (nếu có).
Lịch trình ngắt quãng cố định
Fixed-Interval Schedule
Lịch trình ngắt quãng cố định cung cấp sự củng cố cho phản ứng đầu tiên sau một khoảng thời gian ngắt quãng cụ thể. Ví dụ, một con vật có thể kiếm thức ăn ngay phản ứng đầu tiên của nó sau khoảng thời gian 15 giây. Sau đó, nó sẽ phải đợi thêm 15 giây trước khi một phản hồi khác có hiệu lực. Động vật (bao gồm cả con người) trong một lịch trình như vậy học cách tạm dừng sau khi củng cố và bắt đầu phản ứng lại vào cuối quãng ngắt. Khi thời gian của đợt củng cố tiếp theo đến gần, tốc độ phản ứng sẽ tăng nhanh. Bản ghi tích lũy hiển thị ở phía trên bên phải. Lưu ý rằng độ trễ giữa lần củng cố này và lần tiếp theo là không đổi, nhưng số lượng phản ứng có thể thay đổi.
Kiểm tra hộp thư của bạn là một ví dụ về hành vi theo lịch trình ngắt quãng cố định. Nếu thư của bạn được gửi vào khoảng 3 giờ chiều, và bạn đang háo hức chờ đợi một gói hàng quan trọng, bạn có thể bắt đầu kiểm tra vào khoảng 2:30 và tiếp tục kiểm tra vài phút một lần cho đến khi gói hàng đến. Đi học đúng giờ là một ví dụ khác về lịch trình ngắt quãng cố định.
Lịch trình ngắt quãng biến thiên
Variable-Interval Schedule
Với lịch trình ngắt quãng biến thiên, sự củng cố sẽ có sau một khoảng thời gian thay đổi. Ví dụ: sự củng cố có thể xảy ra đối với phản ứng đầu tiên sau 2 phút, sau đó là phản ứng đầu tiên sau 7 giây tiếp theo, rồi sau 3 phút 20 giây, v.v. Bạn không thể biết thời gian trước khi phản ứng tiếp theo của bạn được củng cố là bao lâu. Do đó, các phản ứng theo lịch trình ngắt quãng biến thiên chậm nhưng ổn định. Kiểm tra email hoặc tài khoản Facebook của bạn là một ví dụ: Một thông báo mới có thể xuất hiện bất cứ lúc nào, vì vậy thi thoảng bạn kiểm tra.
Ngắm sao và ngắm chim cũng được củng cố theo lịch trình ngắt quãng biến thiên. Cơ hội để thấy điều gì đó bất thường xuất hiện trong những quãng ngắt không thể đoán trước.
Bảng 6.3 Một số kiểu lịch trình củng cố Table 6.3 Some Schedules of Reinforcement | |
Loại Type | Mô tả Description |
Liên tục Continuous | Củng cố sau mỗi phản ứng đúng Reinforcement for every response of the correct type |
Tỉ lệ cố định Fixed ratio | Củng cố sau khi hoàn thành 1 số lượng phản ứng nhất định Reinforcement following completion of a specific number of responses |
Tỉ lê biến thiên Variable ratio | Củng cố cho số lượng phản hồi không đoán trước được dao động trong khoảng giá trị trung bình Reinforcement for an unpredictable number of responses that varies around a mean value |
Ngắt quãng cố định Fixed interval | Củng cố cho lần phản hồi đầu tiên theo sau bởi 1 khoảng trễ nhất định kề từ lần củng cố trước. Reinforcement for the first response that follows a given delay since the previous reinforcement |
Ngắt quãng biến thiên Variable interval | Củng cố cho phản hồi đầu tiên theo sau bởi 1 khoảng trễ không dự đoán được (dao động trong khoảng giá trị trung bình) kế từ lần củng cố trước Reinforcement for the first response that follows an unpredictable delay (varying around a mean value) since the previous reinforcement |
Ngừng phản hồi củng cố ở những lịch trình khác nhau
Extinction of Responses Reinforced on Different Schedules
Giả sử bạn có hai người bạn, Beth và Becky. Beth rất đáng tin cậy. Khi cô ấy nói rằng cô ấy sẽ làm điều gì đó, cô ấy sẽ làm. Tuy nhiên, Becky đôi khi giữ lời và đôi khi không. Bây giờ cả hai người họ đều trải qua giai đoạn cư xử không đáng tin cậy. Bạn sẽ mất kiên nhẫn sớm hơn với ai? Đó là Beth. Một cách giải thích là bạn nhận thấy sự thay đổi nhanh chóng hơn. Bởi vì Becky đã không đáng tin cậy trong quá khứ, một loạt các hành vi tương tự mới hầu như không đáng chú ý
Một ví dụ khác: Bạn và một người bạn đến một sòng bạc đánh bạc và đặt cược vào bánh xe Rulet. Thật ngạc nhiên, lúc bắt đầu, bạn luôn giành chiến thắng. Bạn của bạn thắng vài ván và thua vài ván. Sau đó, cả hai bạn đều rơi vào một chuỗi thua kéo dài. Giả sử cả hai bạn có cùng số tiền, ai trong số 2 bạn sẽ tiếp tục đặt cược lâu hơn?
Bạn của bạn sẽ tiếp tục đặt cược lâu hơn, mặc dù bạn đã có những trải nghiệm ban đầu thuận lợi. Các phản ứng triệt tiêu chậm hơn sau khi củng cố gián đoạn (theo lịch trình tỷ lệ hoặc lịch trình ngắt quãng) so với sau khi củng cố liên tiếp. Một người nhận được củng cố gián đoạn đã quen với việc chơi mà không thắng cuộc.
Source: Kalat, J. W. (2017). Introduction to psychology (11ed). Boston, MA: Cengage Learning.