Câu trả lời chân thực cho một trong những tình huống tiến thoái lưỡng nan nhất của AI

A Very Human Answer to One of AI’s Deepest Dilemmas

Dịch giả: Hạnh – Hiệu đính: Lyn

One of the deep dilemmas of artificial intelligence is called the alignment problem. Imagine that we actually designed a fully intelligent, autonomous robot that acted on the world to accomplish its goals. How could we make sure that the robot’s goals would align with our human goals—that it would want the same things we do? I think we should go to an unexpected source to help solve this problem. We should look at caregivers—the parents and grandparents, baby-sitters and preschool teachers, who raise human children.

Một trong những tình huống hết sức khó xử của trí tuệ nhân tạo được gọi là vấn đề căn chỉnh. Hãy tưởng tượng rằng chúng ta đã thực sự thiết kế được một rô-bốt thông minh, tự vận hành một cách hoàn chỉnh và có thể tác động đến thế giới để hoàn thành mục tiêu. Làm thế nào chúng ta có thể đảm bảo rằng các mục tiêu của rô-bốt sẽ cùng chung với mục tiêu của con người, liệu nó sẽ ham muốn những thứ giống như chúng ta? Tôi nghĩ chúng ta nên tìm đến một hướng tham khảo khác để  giải quyết vấn đề này. Chúng ta nên nhìn vào những người chăm sóc: cha mẹ và ông bà, người giữ trẻ và giáo viên mầm non, những người nuôi dạy trẻ em.

Is the alignment problem something we really should worry about? In spite of all the recent AI progress, a fully intelligent and autonomous robot is still far in the future. “Moravec’s paradox” in AI points out that human activities that look very hard, like playing chess, are easier for computers than apparently simple problems like picking up scattered chess pieces. But even the most primitive robot has to have some way to imagine a goal and achieve it—even if the goal is as simple as picking up a package and putting it in the right bin.  

Vấn đề căn chỉnh có thực sự là thứ mà chúng ta nên bận tâm hay không? Bất chấp tất cả những bước tiến vượt trội gần đây của AI, tương lai về  rô bốt với trí tuệ và tự hành hoàn chỉnh vẫn còn rất xa. “Nghịch lý Moravec” trong AI chỉ ra rằng các hoạt động của con người dường như khó khăn, chẳng hạn như chơi cờ vua, lại dễ dàng hơn đối với máy tính và so với các vấn đề có vẻ đơn giản như nhặt quân cờ vương vãi. Nhưng ngay cả rô-bốt thô sơ nhất cũng phải có cách nào đó để hình dung một mục tiêu và đạt được mục tiêu đó, kể cả khi mục tiêu chỉ đơn giản như nhặt một gói hàng và bỏ nó vào đúng thùng.

In fact, one of the most powerful techniques in recent AI is “deep reinforcement learning,” based on the classic idea of reinforcement learning in psychology. Instead of detailing the actions the computer should perform, reinforcement learning systems set up a goal. It’s called an “objective function”—maximize the number of points you score in an Atari game, or the number of games you win in chess. Even impressive language models like GPT-3 are trained with a simple goal: Predict the next few words in a piece of text. The machine keeps trying to fulfill that goal and learns as a result. 

Trên thực tế, một trong những kỹ thuật mạnh nhất trong AI gần đây là “học tăng cường sâu”, dựa trên ý tưởng cổ điển về học tăng cường trong tâm lý học. Thay vì nêu chi tiết các hành động mà máy tính nên thực hiện, các hệ thống học tăng cường sẽ thiết lập một mục tiêu. Nó được gọi là “hàm mục tiêu”—tối đa hóa số điểm bạn ghi được trong trò chơi Atari hoặc số ván bạn thắng trong cờ vua. Ngay cả những mô hình ngôn ngữ ấn tượng như GPT-3 cũng được đào tạo với một mục tiêu đơn giản: Dự đoán một vài từ tiếp theo trong một đoạn văn bản. Chiếc máy tiếp tục cố gắng hoàn thành mục tiêu đó và kết quả là học hỏi.

The alignment problem is how we ensure that the AI’s goals, simple or sophisticated, don’t conflict with our human goals. The philosopher Nick Bostrom has a cautionary tale about “The Paperclip Apocalypse.” We train a powerful machine to have the goal of making as many paperclips as possible. It sets out to turn all the metal it can find into paperclips, and then all the other things in the world into paperclips, and finally turns its human masters into paper clips too. 

Vấn đề căn chỉnh là cách chúng ta đảm bảo rằng các mục tiêu của AI, đơn giản hay phức tạp, không mâu thuẫn với các mục tiêu của con người. Nhà triết học Nick Bostrom có ​​một câu chuyện cảnh báo về “ Tận thế kẹp giấy”. Chúng ta hướng một bộ máy công suất lớn với mục tiêu là tạo ra càng nhiều kẹp giấy càng tốt. Nó bắt đầu biến tất cả kim loại mà nó có thể tìm thấy thành kẹp giấy, và tới tất cả những thứ khác trên thế giới thành kẹp giấy, rồi cuối cùng biến chính chủ nhân con người của nó thành kẹp giấy.

Cognitive scientist Tom Griffiths argues that we are already dealing with a kind of paperclip apocalypse of attention. The algorithms that power social media, and for that matter, much of traditional media too, are designed to maximize human engagement, to make sure that the content they provide captures our attention. That seems like an innocent enough goal. The aim of all good writing, after all, is to try to get readers to pay attention to what you say. But, as we all know, it has costs. Scary outrage captures our attention more than tranquil analysis and siphons off attention from more worthwhile projects. (Like writing presidential columns. This morning I realized that the only way I would get this column done on time was by turning off the internet.)

Nhà khoa học nhận thức Tom Griffiths lập luận rằng chúng ta đã và đang phải đối phó với một loại tận thế kẹp giấy của sự chú ý. Các thuật toán thì thúc đẩy phương tiện truyền thông xã hội phát triển và đối với vấn đề đó, tương tự với phần lớn các kênh truyền thông truyền thống đều được thiết kế để tối đa hóa sự tương tác của con người, nhằm đảm bảo rằng nội dung mà chúng cung cấp thu hút sự quan tâm của chúng ta. Đó trông như là một mục tiêu có vẻ vô hại. Dù sao thì ý định của tất cả các bài viết hay là cố gắng khiến người đọc chú ý đến những gì ta nói. Nhưng như chúng ta đều biết, nó đi kèm với một cái giá nào đó. Sự phẫn nộ đáng sợ sẽ giành được sự chú ý của ta hơn là những bài phân tích nhẹ nhàng và chuyển rời sự chú tâm khỏi các kế hoạch mang tầm cỡ hơn. (Giống như tôi khi viết chuyên mục về tổng thống. Sáng nay tôi nhận ra rằng cách duy nhất để hoàn thành chuyên mục này đúng hạn là ngắt mạng.)

People in AI have been working hard to try to solve the alignment problem (there is much more about this in Brian Christian’s wonderful book of the same name). The obvious idea is to train the computer to recognize and understand human goals, and to make sure that they help humans to accomplish those goals. But as the social media example shows, we humans are often not very good at recognizing our own goals, and those goals are often contradictory. Philosophers even have a special Greek word, “akrasia,” to describe all those situations where our goals conflict. Do I really want to doom scroll or to write my column? Of course, I’d rather write; scrolling makes me miserable, but it seems irresistible. And that is true for all sorts of human desires, from cookies to cocaine. So how could a computer figure out what we really want when we don’t know ourselves? 

Những người trong lĩnh vực AI đã làm việc chăm chỉ để cố gắng giải quyết vấn đề căn chỉnh (điều này được nói rõ hơn trong cuốn sách tuyệt vời cùng tên của Brian Christian). Ý tưởng  ở đây là dạy cho  máy tính cách nhận biết và hiểu các mục tiêu của con người, đồng thời đảm bảo rằng chúng giúp con người hoàn thành các mục tiêu đó. Ví dụ về mạng xã hội cho thấy, con người chúng ta thường không giỏi trong việc nhận ra mục tiêu của chính mình và những mục tiêu đó thường mâu thuẫn với nhau. Các triết gia thậm chí còn có một từ Hy Lạp đặc biệt, “akrasia”, để mô tả tất cả những tình huống mà mục tiêu của con người xung đột với nhau. Tôi có thực sự muốn tiếp tục đọc những tin tức tiêu cực hay viết chuyên mục của mình? Tất nhiên, tôi muốn viết hơn. Việc lướt tin tức khiến tôi bức bối, nhưng dường như nó thật khó để cưỡng lại. Và điều đó đúng với tất cả các loại ham muốn của con người, từ bánh quy đến ma túy. Vậy làm thế nào máy tính có thể tìm ra những gì con người thực sự muốn khi chính bản thân chúng ta còn không biết?

There is another problem. Reinforcement learning agents can act to accomplish the goals human programmers set for them. But a big part of intelligence is the ability to set your own goals and create new ones. To be truly intelligent, a system should also have some autonomy, it should be able to recognize that the world has changed and that its values and goals should change too. We might not set out to create autonomous robots, we might even think that would be a really bad idea. But more intelligence may inevitably imply more autonomy. Do we really want to just create robot Stepford Wives who suppress their own goals and persuade us that they are doing what we want? 

Một vấn đề khác vẫn đang tồn tại. Các “agent” (Một agent là thực thể có thể cảm nhận được môi trường của nó thông qua cảm biến và hành động trên môi trường thông qua phản ứng) của học tăng cường có thể hành động để hoàn thành các mục tiêu mà các lập trình viên con người đặt ra cho chúng. Nhưng một phần quan trọng của trí tuệ là khả năng đặt mục tiêu của riêng bạn và tạo ra những mục tiêu mới. Để được gọi là trí tuệ hoàn chỉnh thì một hệ thống cũng cần có một số quyền tự chủ, nó có thể nhận ra rằng thế giới đã thay đổi và các giá trị cũng như mục tiêu của nó cũng sẽ thay đổi. Chúng ta có thể không bắt tay vào làm ra các con rô-bốt tự vận hành hay chúng ta có khả năng nghĩ rằng đó sẽ là một ý tưởng cực kỳ tồi tệ. Nhưng thông minh hơn thì không thể tránh khỏi trở nên tự chủ hơn. Chúng ta có thực sự muốn tạo ra những bà vợ rô bốt Stepford, những người kìm nén những mong muốn của chính họ và thuyết phục chúng ta rằng họ đang làm những gì chúng ta muốn không?

A solution to these problems may come from an unexpected source. We humans already face the alignment problem, and we always have. We have always had to figure out how to create autonomous, intelligent beings who share our values and goals but can also change and even reject those values and goals. They are our children.  

Giải pháp cho những vấn đề này có thể đến từ một hướng tham khảo không ngờ đến. Con người chúng ta đã luôn phải đối mặt với vấn đề căn chỉnh. Chúng ta luôn phải tìm cách tạo ra những sinh vật tự chủ, thông minh, những người có chung hệ giá trị và mục tiêu của chúng ta nhưng vẫn có thể thay đổi và thậm chí có thể chối bỏ các giá trị và mục tiêu đó. Đó là con cái của chúng ta.

Humans have a distinctive capacity for cultural and technological change. We adapt to our environments through cultural as well as biological evolution. So each new generation faces a slightly different environment than the last, and has to invent different goals, values, and norms to cope with that environment.

Con người có khả năng đặc biệt để thay đổi văn hóa và công nghệ. Chúng ta thích nghi với môi trường của mình thông qua quá trình tiến hóa về văn hóa cũng như sinh học. Vì vậy, mỗi thế hệ mới phải đối mặt với một môi trường mới lạ so với thế hệ trước và phải tạo ra các mục tiêu, giá trị và chuẩn mực khác nhau để thích nghi với môi trường đó.

The human answer to this problem comes through an undervalued and overlooked kind of intelligence—the intelligence of care. Caregivers somehow accomplish the task of producing new, intelligent, autonomous creatures. They pass on the discoveries, goals, and values of previous generations. Yet they also provide children with a protected, nurturing environment that allows them to experiment and explore and to invent new goals and values to suit new circumstances. Developmental psychologists have demonstrated that both children and caregivers have sophisticated cognitive abilities that underpin this kind of cultural evolution—like “theory of mind” and “intuitive pedagogy.” These abilities have allowed human agents to change their “objective functions” over generations. They also have ensured that, by and large, those functions serve the interest of the whole human community (at least, so far).  

Câu trả lời của con người cho vấn đề này đến từ một loại trí thông minh bị đánh giá thấp và bị bỏ qua – trí thông minh về chăm sóc. Những người chăm sóc bằng cách nào đó hoàn thành nhiệm vụ tạo ra những sinh vật mới, thông minh, tự chủ. Họ truyền lại những khám phá, mục tiêu và giá trị của các thế hệ trước. Đồng thời, họ cũng cung cấp cho trẻ một môi trường che chở, nuôi dưỡng, cho phép chúng trải nghiệm, khám phá và phát minh ra các mục tiêu và giá trị mới phù hợp với hoàn cảnh mới. Các nhà tâm lý học phát triển đã chứng minh rằng cả trẻ em và người chăm sóc đều có những khả năng nhận thức tinh vi làm nền tảng cho kiểu tiến hóa văn hóa này,như “thuyết tâm trí” và “phương pháp giáo dục trực giác”. Những khả năng này đã cho phép “agent” của con người thay đổi “hàm mục tiêu” của họ qua nhiều thế hệ. Nhìn chung, họ cũng đã đảm bảo rằng những hàm đó phục vụ lợi ích của toàn thể cộng đồng nhân loại (ít nhất là cho đến nay).

The intelligence of care doesn’t just apply to parents. Many different people care for human children, and they always have—aunts and uncles and older siblings, grandmothers and grandfathers, and unrelated “alloparents.” And the human capacity for care extends beyond children. Teachers and therapists must also figure out how to help students and patients formulate their own goals, while maintaining a difficult balance between guidance and autonomy. APS Mentor Award winners will testify that the very best students are the ones who challenge their mentors and create new ideas and even new kinds of science. 

Trí thông minh về chăm sóc không chỉ áp dụng cho mỗi cha mẹ. Nhiều người khác nhau chăm sóc trẻ em và chúng luôn có dì, chú, anh chị, ông, bà và “cha mẹ nuôi”. Khả năng chăm sóc của con người vượt ra khỏi phạm vi trẻ em. Giáo viên và nhà trị liệu cũng phải tìm ra cách giúp học sinh và thân chủ hình thành mục tiêu của riêng họ, đồng thời duy trì cân bằng mang tính khó khăn giữa sự hướng dẫn và quyền tự chủ. Những người chiến thắng Giải thưởng Người cố vấn APS sẽ chứng minh rằng chính những sinh viên xuất sắc nhất là những người thách thức người cố vấn của họ và tạo ra những ý tưởng mới, thậm chí là những loại khoa học mới.

Care and love go together. Many kinds of care are rooted in the very specific and particular relationships between carers and the people they care for. For most of us these caring relationships are the source of our most profound satisfactions and joys and our most troubling dilemmas. The alignment problem looms large in our everyday life, as everyone who has raised a teenager, or mentored a challenging student, can testify, as well as in AI. What’s more from a biological and evolutionary perspective, care is a central part of what makes us human. We evolved a much wider array of caregivers to care for our young than other primates, and those young are exceptionally needy. They rely on caregivers to give them food, but also to help them learn. All humans receive care at some point in their lives (most provide it, too), and the community of care extends well beyond kin.  

Quan tâm và yêu thương gắn liền với nhau. Có nhiều kiểu chăm sóc bắt nguồn từ mối quan hệ rất rõ ràng và cụ thể giữa người chăm sóc và những người mà họ chăm sóc. Đối với hầu hết chúng ta, những mối quan hệ quan tâm chăm sóc này là nguồn gốc của những thỏa mãn và hạnh phúc sâu đậm nhất cũng như những thế tiến thoái lưỡng nan rắc rối nhất. Vấn đề căn chỉnh bao trùm cuộc sống hàng ngày của chúng ta. Tất cả những người đã nuôi dạy một thiếu niên hoặc làm cố vấn cho một học sinh cá biệt đều có thể làm chứng, cũng như với AI. Hơn nữa, từ góc độ sinh học và tiến hóa, sự quan tâm là một yếu tố quan trọng tạo nên con người. Chúng ta đã phát triển một phần đông những người chăm sóc để nuôi dưỡng con của chúng ta hơn so với các loài linh trưởng khác và những đứa trẻ đó thì cần nhận được sự quan tâm đặc biệt. Chúng dựa vào những người chăm sóc để cung cấp cho chúng thức ăn và giúp chúng học hỏi. Tất cả mọi người đều nhận được sự chăm sóc tại một thời điểm nào đó trong cuộc đời của họ (phần lớn cũng cung cấp dịch vụ đó) và cộng đồng của sự chăm sóc mở rộng vượt ra ngoài phạm vi gia đình.

Care is also a model form of moral behavior, and central to many religious moral conceptions. Many Western and Eastern religious traditions argue that we can make moral progress by extending the care we provide to children and family to people in general. However, this kind of care doesn’t fit well with the standard approaches to morality in philosophy and psychology.  

Chăm sóc cũng là một hình thức mẫu mực của hành vi đạo đức và là trung tâm của nhiều quan niệm đạo đức tôn giáo. Nhiều truyền thống tôn giáo phương Tây và phương Đông lập luận rằng chúng ta có thể tiến bộ về mặt đạo đức bằng cách chia sẻ sự quan tâm mà chúng ta dành cho trẻ em và gia đình với mọi người nói chung. Tuy nhiên, kiểu chăm sóc này không phù hợp lắm với cách tiếp cận tiêu chuẩn đối với đạo đức trong triết học và tâm lý học.

The usual evolutionary and psychological accounts of morality, altruism, and cooperation, as well as most political and economic theories, depend on the idea of the social contract. In complex situations, we can get better outcomes for everybody if people trade off their own interests and those of other individual autonomous agents.  

Các giải thích tâm lý và tiến hóa thông thường về đạo đức, lòng vị tha và sự hợp tác, cũng như hầu hết các lý thuyết chính trị và kinh tế, đều phụ thuộc vào ý tưởng về khế ước xã hội. Trong những tình huống phức tạp, chúng ta có thể đạt được kết quả tốt hơn cho mọi người nếu con người đánh đổi lợi ích của chính họ và lợi ích của agent tự chủ mang tính cá nhân khác.

But this contractual model doesn’t apply naturally to care. Care doesn’t require even implicit negotiation or reciprocity.  Indeed, it is often profoundly asymmetric—think of a father caring for his helpless infant, or a teacher caring for a struggling student. Instead of trading off their own interests and those of another, the carer extends their own interests to include those of the other. Moreover, expanding values and interests in this way is a challenging cognitive task. 

Nhưng mô hình hợp đồng này không áp dụng một cách tự nhiên cho việc chăm sóc. Sự chăm sóc thậm chí không yêu cầu sự thương lượng hoặc sự đền đáp ngầm. Thật vậy, nó thường hết sức không đối xứng. Hãy nghĩ về một người cha chăm sóc đứa con sơ sinh yếu ớt của mình, hay một giáo viên chăm sóc một học sinh đang gặp khó khăn. Thay vì đánh đổi lợi ích của chính họ và lợi ích của người khác, người chăm sóc mở rộng lợi ích của bản thân để bao gồm cả lợi ích của người kia. Hơn nữa, mở rộng các giá trị và sở thích theo cách này là một việc nhận thức đầy vất vả.

Caregiving, and the intelligence that goes with it, has always gotten much less intellectual and academic attention than it deserves. From the perspective of classical theories of philosophy, politics, and economics—and psychology too—caregiving is a peculiar anomaly. The classical contractually based accounts of social relationships in psychology, political philosophy, and economics assume that agents are independent and autonomous decision-making creatures. But the morality of being a parent is about taking a creature who isn’t autonomous and can’t make their own decisions and turning them into one who can.   

Sự quan tâm chăm sóc và trí thông minh đi kèm với nó đã luôn ít được chú ý đến về mặt trí tuệ và học thuật hơn nhiều so với những gì nó đáng được nhận. Từ quan điểm của các lý thuyết cổ điển về triết học, chính trị, kinh tế và tâm lý học, việc chăm sóc là một sự khác thường lạ lùng. Các giải thích cổ điển dựa trên hợp đồng về các mối quan hệ xã hội trong tâm lý học, triết học chính trị và kinh tế học cho rằng các “agent” là những sinh vật đưa ra quyết định độc lập và tự chủ. Nhưng đạo đức của việc làm cha mẹ là lấy một sinh vật không tự chủ và không thể đưa ra quyết định riêng mình và biến chúng thành một người có thể làm được những điều ấy.

Paying more attention to the intelligence of care is important for lots of reasons. Most urgently, as I argued in an earlier column, it might help us to get caregivers the resources they need.  But it might also be one key to solving the alignment problem in AI. The science fiction writer Ted Chiang has an exceptionally moving novella called The Lifecycle of Software Objects. It describes the parenting dilemmas of humans who agree to take care of intelligent AIs and help them learn. The humans, like all parents, must figure out when to dictate and when to let go, and how to negotiate the delicate balance of guiding the AIs’ decisions and allowing them to decide for themselves.  

Việc chú ý nhiều hơn đến trí thông minh về chăm sóc có ý nghĩa quan trọng vì rất nhiều lý do. Điều khẩn cấp nhất, như tôi đã lập luận trong một đoạn trước đó, nó có thể giúp chúng ta có được những người chăm sóc những nguồn lực họ cần. Nó cũng có thể là một chìa khóa để giải quyết vấn đề căn chỉnh trong AI. Nhà văn khoa học viễn tưởng Ted Chiang có một cuốn tiểu thuyết vô cùng cảm động có tên là Vòng đời của các đối tượng phần mềm. Nó mô tả những tình huống khó xử trong việc nuôi dạy con cái của những người đồng ý chăm sóc các AI thông minh và giúp chúng học hỏi. Con người, giống như tất cả các bậc cha mẹ, phải tìm ra khi nào nên ra lệnh và khi nào nên từ bỏ, đồng thời làm thế nào để thương lượng sự cân bằng mong manh trong việc hướng dẫn các quyết định của AI và cho phép chúng tự quyết định.

This is science fiction, of course, but if genuinely intelligent and autonomous artificial agents ever do emerge, then we will have to figure out how to go beyond exploiting them for our own ends and getting them to accomplish our own goals. We will have to care for them and help them learn to create their own goals. Even now, we might help solve the alignment problem in AI by thinking about how we solve it in human relationships.

Tất nhiên, đó là khoa học viễn tưởng, nhưng nếu các “agent”nhân tạo thông minh và tự vận hành một cách chân thật xuất hiện, thì chúng ta sẽ phải tìm ra cách vượt ra ngoài việc khai thác chúng phục vụ cho mình và khiến chúng đạt được mục tiêu của riêng mình. Chúng ta sẽ phải quan tâm đến chúng và giúp chúng học cách tạo ra mục tiêu của riêng mình. Ngay cả bây giờ, chúng ta có thể giúp giải quyết vấn đề căn chỉnh trong AI bằng cách suy nghĩ về cách bản thân giải quyết vấn đề đó trong các mối quan hệ của con người.

 

Nguồn: Link 

 

Để lại một bình luận