Tác giả: James Somers
Nguồn: The New Yorker
Thuỳ sưu tầm và biên dịch
Vào một đêm tháng 10 năm 2009, một chàng trai trẻ nằm trong máy chụp fMRI ở Liège, Bỉ. Năm năm trước, anh bị chấn thương đầu trong một tai nạn xe máy, và kể từ đó anh không nói được. Người ta nói rằng anh đang ở trong “trạng thái thực vật”. Một nhà thần kinh học tên là Martin Monti ngồi ở phòng bên cạnh, cùng với một vài nhà nghiên cứu khác. Trong nhiều năm, Monti và cố vấn sau tiến sĩ của mình, Adrian Owen, đã nghiên cứu những bệnh nhân thực vật, và họ đã phát triển hai giả thuyết gây tranh cãi. Thứ nhất, họ tin rằng một người có thể mất khả năng di chuyển hoặc thậm chí không thể nháy mắt trong khi vẫn còn tỉnh táo; thứ hai, họ nghĩ rằng họ đã tìm ra một phương pháp giao tiếp với những người “mắc kẹt” như vậy bằng cách “đọc” những suy nghĩ trong đầu của những người này.
Về cơ bản, chiến lược của họ rất đơn giản. Các tế bào thần kinh trong não sử dụng oxy chứa bên trong hemoglobin do máu đưa tới. Hemoglobin chứa sắt, và bằng cách theo dõi sắt, nam châm trong máy fMRI có thể xây dựng bản đồ hoạt động của não. Việc chỉ ra các dấu hiệu của ý thức giữa vô vàn các tín hiệu não phức tạp và hỗn loạn là gần như không thể. Nhưng, thông qua thử nghiệm và sai sót, nhóm của Owen đã nghĩ ra một giao thức thông minh. Họ đã phát hiện ra rằng nếu một người tưởng tượng cảnh mình đang đi bộ quanh nhà mình, sẽ có một sự tăng đột biến hoạt động ở khúc cuộn cận hải mã (parahippocampal gyrus) trong não của người này – một vùng hình ngón tay nằm sâu trong thùy thái dương. Ngược lại, việc tưởng tượng cảnh mình chơi tennis kích hoạt vỏ não trước vận động (premotor cortex), nằm trên một gờ gần hộp sọ. Hoạt động này đủ rõ ràng để có thể được nhìn thấy trong thời gian thực với máy fMRI. Trong một nghiên cứu năm 2006 được công bố trên tạp chí Science, các nhà nghiên cứu báo cáo rằng họ đã yêu cầu một người đang ở trang thái thực vật suy nghĩ về tennis. Khi nhìn ảnh chụp não của người này, họ nhận thấy cô đã làm như vậy.
Với chàng trai trẻ, được gọi là Bệnh nhân số 23, Monti và Owen đã thực hiện một bước tiến xa hơn: cố gắng trò chuyện với anh. Họ sẽ đặt câu hỏi và nói với anh rằng anh có thể ra hiệu “có” bằng cách tưởng tượng chơi tennis, hoặc “không” bằng cách nghĩ về việc đi bộ xung quanh nhà mình. Trong phòng điều khiển máy quét, một màn hình hiển thị mặt cắt ngang não của Bệnh nhân số 23. Khi các khu vực khác nhau tiêu thụ oxy trong máu, chúng lung linh màu đỏ, sau đó là màu cam sáng. Monti tập trung vào các khu vực cần nhìn để phát hiện các tín hiệu có và không.
Monti bật hệ thống liên lạc nội bộ và giải thích hệ thống cho Bệnh nhân số 23, sau đó đặt câu hỏi đầu tiên: “Tên cha của anh có phải là Alexander không?”
Vỏ não trước vận động của chàng trai trẻ sáng lên. Anh ta đang nghĩ về tennis – tức là có.
“Tên cha của anh có phải là Thomas không?”
Màn hình hiển thị hoạt động ở khúc cuộn cận hải mã. Anh ta đang tưởng tượng đi bộ quanh nhà của mình – câu trả lời là không.
“Anh có anh em trai không?”
Tennis – có.
“Anh có chị em gái không?”
Nhà – không.
“Trước khi bị thương, kỳ nghỉ cuối cùng của anh có phải ở Hoa Kỳ không?”
Tennis – có.
Các câu trả lời đều đúng. Monti đã rất kinh ngạc và gọi cho Owen, người đang đi dự hội nghị. Owen nghĩ rằng họ nên đặt thêm câu hỏi. Nhóm đã xem xét một số khả năng. Câu hỏi “Anh có thích pizza không?” bị loại bỏ vì quá mơ hồ. Họ quyết định thăm dò sâu hơn. Monti bật lại hệ thống liên lạc nội bộ và hỏi:
“Anh có muốn chết không?”
Lần đầu tiên trong đêm đó, không có câu trả lời rõ ràng.
Mùa đông năm đó, kết quả của nghiên cứu được công bố trên Tạp chí Y học New England (The New England Journal of Medicine). Bài báo gây ra một cơn sốt. Tờ Los Angeles Times đã viết một câu chuyện về nó, với tiêu đề “Bộ não của bệnh nhân thực vật cho thấy sự sống”. Owen ước tính rằng khoảng 20% bệnh nhân được cho là đang ở trong trạng thái thực vật vẫn có ý thức. Đây là một khám phá có tầm quan trọng thực tiễn to lớn: trong những năm tiếp theo, thông qua các buổi chụp fMRI tỉ mỉ, nhóm của Owen đã tìm thấy nhiều bệnh nhân có thể tương tác với những người thân và trả lời các câu hỏi về việc chăm sóc bản thân. Các cuộc trò chuyện đã cải thiện cơ hội phục hồi của họ. Tuy nhiên, từ góc độ khoa học thuần túy, có một điều gì đó không thỏa đáng về phương pháp mà Monti và Owen đã phát triển với Bệnh nhân số 23. Mặc dù họ đã sử dụng các từ “tennis” và “nhà” trong giao tiếp với anh ta, nhưng họ không có cách nào để biết chắc chắn rằng anh ta đang nghĩ về những điều cụ thể đó. Họ chỉ có thể nói rằng, để đáp lại những câu hỏi từ họ, có dấu hiệu của suy nghĩ đang diễn ra ở các khu vực não liên quan. Monti nói: “Liệu người đó đang tưởng tượng về cảnh chơi tennis, bóng đá, khúc côn cầu hay bơi lội – chúng tôi không biết.”
Trong vài thập kỷ qua, lĩnh vực “đọc suy nghĩ” thần kinh học đã tiến bộ đáng kể. Các nhà tâm lý học nhận thức được trang bị máy fMRI có thể biết một người có đang suy nghĩ về những điều phiền muộn, trầm cảm hay không; họ có thể thấy được là học sinh đã nắm vững những khái niệm nào bằng cách so sánh các mô hình não của học sinh đó với mô hình não của giáo viên. Bằng cách phân tích các ảnh chụp não, một hệ thống máy tính có thể tổng hợp và tạo ra những bản tái tạo thô sơ của các đoạn phim mà bạn đã xem. Một nhóm nghiên cứu đã sử dụng công nghệ tương tự để mô tả chính xác giấc mơ của những người đang ngủ. Tại một phòng thí nghiệm khác, các nhà khoa học đã quét não của những người đang đọc truyện ngắn “Pretty Mouth and Green My Eyes” của J. D. Salinger, trong truyện thì phải đến cuối cùng người đọc mới biết rõ một nhân vật có đang ngoại tình hay không. Chỉ từ ảnh chụp não, các nhà nghiên cứu có thể biết độc giả đang nghiêng về giả thuyết nào và quan sát thấy khi nào họ thay đổi suy nghĩ.
Lần đầu tiên tôi nghe về những nghiên cứu này từ Ken Norman, chủ nhiệm khoa tâm lý học tại Đại học Princeton và là chuyên gia về giải mã suy nghĩ. Norman làm việc tại Viện Khoa học Thần kinh Princeton (Princeton Neuroscience Institute – P.N.I.), viện này nằm trong một công trình bằng kính, được xây dựng vào năm 2013, trải dài trên một ngọn đồi thấp ở phía nam khuôn viên trường. P.N.I. là một trung tâm cho phép các nhà tâm lý học, thần kinh học và khoa học máy tính có thể kết hợp các phương pháp tiếp cận của họ để nghiên cứu tâm trí; M.I.T. và Stanford đã đầu tư vào các viện nghiên cứu đa ngành tương tự. Tại P.N.I., sinh viên đại học vẫn tham gia vào các thí nghiệm tâm lý kiểu cũ sử dụng các bảng khảo sát và thẻ ghi nhớ. Nhưng trên lầu, trong một phòng thí nghiệm nghiên cứu sự phát triển của trẻ em, trẻ mới biết đi được cho đội những chiếc mũ nhỏ được trang bị máy quét não hồng ngoại, và dưới tầng hầm, hộp sọ của những con chuột được biến đổi gen bị cắt mở, cho phép điều khiển các nơ-ron riêng lẻ bằng tia laser. Một phòng máy chủ với cụm máy tính hiệu suất cao được dành riêng để phân tích dữ liệu được tạo ra từ những thí nghiệm này.
Sự thông minh, lanh lợi đi kèm với tính cách vui vẻ, hòa đồng cùng bộ râu rậm rạp mang lại cho Norman vẻ ngoài của một giáo viên khoa học ở một trường trung học. Văn phòng của anh nằm ở tầng trệt, cửa sổ nhìn ra một cánh đồng cỏ. Các kệ sách phía sau bàn làm việc của anh chứa DNA trí tuệ của viện, với William James bên cạnh các văn bản về học máy. Norman giải thích rằng máy fMRI không tiến bộ nhiều; thay vào đó, trí tuệ nhân tạo đã hoàn toàn thay đổi cách các nhà khoa học đọc dữ liệu thần kinh. Điều này đã giúp làm sáng tỏ một bí ẩn triết học cổ xưa. Trong nhiều thế kỷ, các nhà khoa học đã mơ ước về việc tìm ra vị trí của các suy nghĩ trong đầu. Tuy nhiên, họ gặp phải một vấn đề triết học và khoa học rất khó giải quyết: Làm thế nào mà những thứ trừu tượng như suy nghĩ, ý tưởng, cảm xúc lại có thể tồn tại trong một vật thể vật chất như bộ não? Khi Erasistratus, một nhà giải phẫu học Hy Lạp cổ đại, mổ xẻ não, ông nghi ngờ rằng việc não có nhiều nếp gấp như vậy chính là chìa khóa cho trí thông minh, nhưng ông không thể giải thích được làm thế nào mà suy nghĩ có thể được đóng gói trong cái khối vật chất uốn khúc đó. Vào thế kỷ XVII, Descartes cho rằng đời sống tinh thần phát sinh ở tuyến tùng, nhưng ông không thực sự đưa ra được một lý thuyết để giải thích cơ chế hoạt động của tuyến tùng trong việc tạo ra đời sống tinh thần. Thế giới tinh thần của chúng ta chứa đựng mọi thứ từ mùi vị, màu sắc… của các thực thể xung quanh ta, cùng các ý niệm trừu tượng, phi vật chất không tồn tại trong thế giới vật lý. Làm thế nào mà chỉ vài cân tế bào đó lại có thể chứa đựng nhiều đến thế?
Norman giải thích, giờ đây các nhà nghiên cứu đã phát triển một phương pháp sử dụng các khái niệm và công cụ toán học để hiểu suy nghĩ. Dựa trên những hiểu biết sâu sắc từ học máy, họ quan niệm suy nghĩ là tập hợp các điểm trong một “không gian ý nghĩa” dày đặc. Họ có thể thấy những điểm này liên quan và được mã hóa bởi các nơ-ron như thế nào. Bằng cách giải mã nó, họ đang bắt đầu có thể xác định và phân loại các loại suy nghĩ khác nhau, cũng như hiểu cách chúng liên kết với nhau. Norman nói: “Tâm trí con người có khả năng sáng tạo và tưởng tượng rất lớn – nhưng nó không lớn vô hạn.” Sớm thôi, chúng ta sẽ có thể lập một bản đồ chi tiết về các khái niệm trong tâm trí của chúng ta.
Norman mời tôi xem một thí nghiệm giải mã suy nghĩ. Một nghiên cứu sinh sau tiến sĩ (postdoctoral) tên là Manoj Kumar dẫn chúng tôi vào một phòng thí nghiệm bị khoá dưới tầng hầm tại P.N.I., nơi một phụ nữ trẻ đang nằm trong máy quét fMRI. Một màn hình được gắn cách mặt cô vài inch chiếu một loạt hình ảnh có sẵn: một bãi biển trống trải, một hang động, một khu rừng
Norman nói: “Chúng tôi muốn muốn tìm hiểu cách não bộ phản ứng với các loại hình ảnh khác nhau.”
Khi người phụ nữ xem loạt hình ảnh được chiếu trên màn hình, máy quét ghi lại những vùng nào trong não của cô hoạt động. Các mô hình hoạt động của não bộ do máy quét fMRI ghi lại sẽ được phân tích theo “voxel” – các vùng não hoạt động có kích thước xấp xỉ một milimet khối. Về cơ bản, dữ liệu fMRI cực kỳ thô: mỗi voxel đại diện cho mức tiêu thụ oxy của khoảng một triệu nơ-ron và chỉ có thể được cập nhật sau mỗi vài giây, chậm hơn nhiều so với tốc độ nơ-ron phóng điện. Nhưng, Norman nói, “hóa ra thông tin đó đã có trong dữ liệu mà chúng tôi thu thập – chỉ là chúng tôi chưa xử lý thông tin đó một cách hiệu quả cho lắm mà thôi.” Đột phá xuất hiện khi các nhà nghiên cứu tìm ra cách theo dõi các mô hình diễn ra trên hàng chục nghìn voxel cùng một lúc, như thể mỗi voxel là một phím trên đàn piano, và suy nghĩ là các hợp âm.
Phương pháp này có từ gần bảy mươi năm trước, từ công trình của một nhà tâm lý học tên là Charles Osgood. Khi còn nhỏ, Osgood được tặng một cuốn Từ điển đồng nghĩa (Thesaurus) của Roget. Khi lật giở các trang sách, ông đã tưởng tượng các từ trong từ điển như những điểm sáng nhỏ, giống như những ngôi sao, tập trung thành từng cụm trong một không gian vô cùng rộng lớn.” Khi làm nghiên cứu sinh, khi các đồng nghiệp của ông tranh luận về việc văn hoá ảnh hưởng đến quá trình hình thành nhận thức, Osgood nhớ lại hình ảnh này. Ông tự hỏi liệu, việc sử dụng ý tưởng về “không gian ngữ nghĩa” có thể giúp lập bản đồ sự khác biệt giữa các phong cách tư duy khác nhau hay không.
Osgood đã tiến hành một thí nghiệm. Ông yêu cầu mọi người đánh giá hai mươi khái niệm trên năm mươi thang đo khác nhau. Các khái niệm rất đa dạng: ĐÁ TẢNG, TÔI, LỐC XOÁY, MẸ. Các thang đo cũng vậy, được xác định bởi các cặp đối lập: công bằng-bất công, nóng-lạnh, thơm-hôi. Một số đánh giá rất khó: LỐC XOÁY có thơm hay hôi không? Nhưng ý tưởng là phương pháp này sẽ tiết lộ những sắc thái tương đồng và khác biệt tinh tế và thậm chí khó nắm bắt giữa các khái niệm. “Hầu hết người Mỹ nói tiếng Anh cảm thấy rằng có một sự khác biệt nhất định giữa ‘good’ và ‘nice’ nhưng họ không giải thích một cách rõ ràng được,” Osgood viết. Các cuộc khảo sát của ông cho thấy rằng, ít nhất là đối với sinh viên đại học những năm 1950, phần lớn thời gian, hai khái niệm này gần như tương đồng nhau. Chúng khác nhau khi đi với với danh từ có xu hướng nam hoặc nữ. MẸ có thể được đánh giá là “nice” chứ không phải là “good”, và CẢNH SÁT thì ngược lại. Osgood kết luận rằng “good” mang ý “mạnh mẽ hơn, thô ráp hơn, góc cạnh hơn và lớn hơn” so với “nice”.
Osgood được biết đến không phải vì kết quả khảo sát của mình mà vì phương pháp ông tạo ra để phân tích chúng. Ông bắt đầu bằng cách sắp xếp dữ liệu của mình trong một không gian tưởng tượng với năm mươi chiều: một cho công bằng – bất công, một cho nóng – lạnh, một cho thơm – hôi, v.v. Bất kỳ khái niệm nào được cho, ví dụ như LỐC XOÁY, đều có đánh giá trên mỗi chiều – và do đó, nằm trong cái được gọi là không gian đa chiều. Nhiều khái niệm có vị trí tương tự trên nhiều trục, chẳng hạn như: tử tế – tàn nhẫn và trung thực – không trung thực. Osgood kết hợp các chiều này. Sau đó, ông tìm kiếm những điểm tương đồng mới và kết hợp các chiều lại với nhau, trong một quá trình gọi là “phân tích nhân tố”.
Khi bạn cô đặc một loại nước sốt, bạn trộn lẫn và làm các hương vị cơ bản của nó mạnh lên. Osgood đã làm điều tương tự với phân tích nhân tố. Cuối cùng, ông đã có thể lập bản đồ tất cả các khái niệm vào một không gian chỉ có ba chiều. Chiều đầu tiên là “đánh giá” – sự pha trộn của các thang đo như tốt – xấu, đẹp – xấu và tử tế – tàn nhẫn. Chiều thứ hai liên quan đến “tiềm năng”: nó hợp nhất các thang đo như lớn – nhỏ và mạnh – yếu. Chiều thứ ba đo lường yếu tố “chủ động” hay “thụ động” của khái niệm được cho. Osgood có thể sử dụng ba yếu tố chính này để định vị bất kỳ khái niệm nào trong một không gian trừu tượng. Các ý tưởng có tọa độ tương tự nhau có nghĩa gần nhau.
Trong nhiều thập kỷ, kỹ thuật của Osgood đã được sử dụng một cách khiêm tốn trong một loại bài kiểm tra tính cách. Tiềm năng thực sự của nó không được thể hiện rõ cho đến những năm 1980, khi các nhà nghiên cứu tại Bell Labs đang cố gắng giải quyết cái mà họ gọi là “vấn đề từ vựng”. Mọi người có xu hướng sử dụng rất nhiều tên khác nhau cho cùng một thứ. Đây là một trở ngại cho người dùng máy tính, những người truy cập chương trình bằng cách nhập từng dòng lệnh. George Furnas, người nghiên cứu về tương tác giữa người và máy tính, đã mô tả việc sử dụng danh bạ điện thoại nội bộ của công ty nha sau: “Bạn đang ở trong văn phòng của mình tại Bell Labs, và ai đó đã đánh cắp máy tính của bạn. Bạn bắt đầu nhập từ ‘cảnh sát’ hoặc ‘hỗ trợ’ hoặc ‘trộm cắp’ nhưng nó không cung cấp cho bạn số điện thoại mà bạn cần tìm. Cuối cùng, bạn nhập ‘bảo mật’ và số điện thoại liên hệ hiện ra. Nhưng bây giờ kết quả tìm kiếm lại xuất hiện 2 số khác nhau: một là của “Bell Savings” và một là của “Security Plan.” Nhóm của Furnas muốn tự động hóa việc tìm từ đồng nghĩa cho các lệnh và cụm từ tìm kiếm.
Họ đã cập nhật phương pháp của Osgood. Thay vì khảo sát sinh viên đại học, họ đã sử dụng máy tính để phân tích các từ trong khoảng hai nghìn báo cáo kỹ thuật. Bản thân các báo cáo – về các chủ đề từ lý thuyết đồ thị đến thiết kế giao diện người dùng – đã gợi ý các chiều của không gian; khi nhiều báo cáo sử dụng các nhóm từ tương tự, các chiều của chúng có thể được kết hợp. Cuối cùng, các nhà nghiên cứu của Bell Labs đã tạo ra một không gian phức tạp hơn không gian của Osgood. Nó có vài trăm chiều. Nhiều trong số các chiều này mô tả các phẩm chất trừu tượng hoặc “tiềm ẩn” mà các từ có điểm chung – các kết nối mà hầu hết người nói tiếng Anh sẽ không nhận thấy. Các nhà nghiên cứu gọi kỹ thuật của họ là “phân tích ngữ nghĩa tiềm ẩn” hay L.S.A.
Ban đầu, Bell Labs đã sử dụng L.S.A. để tạo ra một công cụ tìm kiếm nội bộ tốt hơn. Sau đó, vào năm 1997, Susan Dumais, một trong những đồng nghiệp của Furnas, đã hợp tác với một nhà khoa học nhận thức của Bell Labs, Thomas Landauer, để phát triển một hệ thống A.I. dựa trên nó. Sau khi xử lý Bách khoa toàn thư học thuật Hoa Kỳ của Grolier, một tác phẩm dành cho các học sinh nhỏ tuổi, A.I. đã đạt điểm đáng nể trong Bài kiểm tra trắc nghiệm Ngoại ngữ tiếng Anh. Năm đó, hai nhà nghiên cứu đã đồng viết một bài báo đề cập đến câu hỏi “Làm thế nào mà người ta lại biết nhiều như vậy dù nhận được rất ít thông tin?” Họ gợi ý rằng tâm trí của chúng ta có cơ chế hoạt động tương tự như L.S.A., hiểu thế giới bằng cách đưa nó về những khác biệt và tương đồng quan trọng nhất, và sử dụng kiến thức được chắt lọc này để hiểu những điều mới. Ví dụ, khi xem một bộ phim của Disney, chúng ta ngay lập tức có thể xác định một nhân vật là “kẻ xấu”: Scar trong “Vua sư tử” và Jafar trong “Aladdin.” Có lẽ não của chúng ta sử dụng phân tích nhân tố để chắt lọc hàng nghìn thuộc tính – chiều cao, gu thời trang, giọng nói… – thành một điểm duy nhất trong một không gian trừu tượng. Việc nhận diện một khái niệm (như “tính cách phản diện”) phụ thuộc vào vị trí của nó so với các khái niệm có liên quan trong không gian trừu tượng.
Trong những năm tiếp theo, các nhà khoa học đã áp dụng L.S.A. cho các tập dữ liệu ngày càng lớn hơn. Vào năm 2013, các nhà nghiên cứu tại Google đã tung ra một hậu duệ của nó lên toàn bộ văn bản trên World Wide Web. Thuật toán của Google đã biến mỗi từ thành một “vectơ” hoặc điểm trong không gian đa chiều. Các vectơ được tạo bởi chương trình của các nhà nghiên cứu, word2vec, chính xác một cách kỳ lạ: nếu bạn lấy vectơ của từ “vua” và trừ vectơ của từ “người đàn ông”, sau đó thêm vectơ của từ “người phụ nữ”, thì vectơ gần nhất là “nữ hoàng”. Các vectơ từ trở thành cơ sở để cải thiện Google Dịch và cho phép tự động hoàn thành câu trong Gmail. Các công ty khác, bao gồm Apple và Amazon, đã xây dựng các hệ thống tương tự. Cuối cùng, các nhà nghiên cứu nhận ra rằng “vectơ hóa” được phổ biến bởi L.S.A. và word2vec có thể được sử dụng để sắp xếp tất cả mọi thứ. Các hệ thống nhận dạng khuôn mặt ngày nay có các chiều đại diện cho chiều dài của mũi và độ cong của môi, và khuôn mặt được mô tả bằng một chuỗi tọa độ trong “không gian khuôn mặt”. A.I. cờ vua sử dụng một thủ thuật tương tự để “vectơ hóa” các vị trí trên bàn cờ. Kỹ thuật này đã trở nên quan trọng đến mức trong lĩnh vực trí tuệ nhân tạo, vào năm 2017, một trung tâm nghiên cứu A.I. mới trị giá một 135 triệu đô la ở Toronto đã được đặt tên là Viện Vector. Matthew Botvinick, một giáo sư tại Princeton có phòng thí nghiệm ở đối diện hành lang với Norman, và hiện là người đứng đầu bộ phận khoa học thần kinh tại DeepMind, công ty con A.I. của Alphabet, nói rằng việc chắt lọc các điểm tương đồng và khác biệt có liên quan thành vectơ là “bí quyết cơ bản của tất cả những tiến bộ A.I. này.”
Vào năm 2001, một nhà khoa học tên là Jim Haxby đã dùng học máy để phân tích hình ảnh não bộ: ông nhận ra rằng các voxel của hoạt động thần kinh có thể đóng vai trò là các chiều trong một loại không gian suy nghĩ. Haxby tiếp tục làm việc tại Princeton, nơi ông hợp tác với Norman. Hai nhà khoa học, cùng với các nhà nghiên cứu khác, kết luận rằng chỉ cần vài trăm chiều là đủ để nắm bắt các sắc thái tương đồng và khác biệt trong hầu hết dữ liệu fMRI. Tại phòng thí nghiệm Princeton, người phụ nữ trẻ nằm trong máy quét xem những hình ảnh được chiếu trên màn hình. Với mỗi hình ảnh mới – bãi biển, hang động, khu rừng – não của cô hoạt động dưới các mô hình khác nhau. Các mô hình này sẽ được ghi lại dưới dạng voxel, sau đó được xử lý bằng phần mềm và chuyển đổi thành vectơ. Các hình ảnh đã được chọn vì các vectơ của chúng sẽ nằm cách xa nhau: chúng là những điểm mốc tốt để tạo bản đồ. Khi xem các hình ảnh đó, tâm trí của chúng ta cũng đang thực hiện một chuyến đi qua không gian suy nghĩ.
Mục tiêu lớn hơn của việc giải mã suy nghĩ là khả năng hiểu cách não của chúng ta phản ánh thế giới. Để đạt được mục tiêu này, các nhà nghiên cứu đã tìm cách quan sát khi những trải nghiệm tương tự ảnh hưởng đến tâm trí của nhiều người cùng một lúc. Norman nói với tôi rằng đồng nghiệp của ông tại Princeton, Uri Hasson, đã thấy phim là công cụ đặc biệt hữu ích để làm điều này. Norman nói: “Phim có khả năng “kéo” não của người xem qua “không gian suy nghĩ” một cách đồng bộ. Alfred Hitchcock trở thành bậc thầy trong việc tạo ra cảm giác căng thẳng và lo lắng cho người xem là vì khi xem phim của ông não của người xem bị giật cùng một nhịp. Đây chính là kỹ thuật điều khiển tâm trí theo đúng nghĩa đen của nó.”
Một buổi chiều, trong lớp học đại học của Norman nói về “Giải mã fMRI: Đọc suy nghĩ bằng cách sử dụng hình ảnh quét não”. Khi các sinh viên vào giảng đường, đặt máy tính xách tay và chai nước của họ lên bàn, Norman đeo kính gọng đồi mồi và tai nghe bước vào lớp, tóc tai bù xù.
Ông cho cả lớp xem một đoạn trích từ phim “Seinfeld” trong đó George, Susan (một giám đốc điều hành của N.B.C. – người mà George đang tán tỉnh) và Kramer đang đi chơi với Jerry trong căn hộ của anh. Điện thoại reo, và Jerry trả lời: đó là một cuộc gọi quảng cáo. Jerry cúp máy, trước sự cổ vũ của khán giả trường quay.
Norman hỏi: “Đâu là ranh giới sự kiện trong đoạn clip?”. Các sinh viên đồng thanh hét lên, “Khi điện thoại reo!” Các nhà tâm lý học từ lâu đã biết rằng tâm trí của chúng ta chia trải nghiệm thành các phân đoạn; trong trường hợp này, cuộc gọi điện thoại là nguyên nhân gây ra sự phân chia.
Norman cho cả lớp xem một loạt slide. Một trang trong đó mô tả một nghiên cứu năm 2017 của Christopher Baldassano, một trong những nghiên cứu sinh sau tiến sĩ của ông, trong đó mọi người xem một tập “Sherlock” của BBC khi nằm trong máy quét fMRI. Khi bắt đầu nghiên cứu, Baldassano dự đoán là một số mẫu voxel sẽ liên tục thay đổi trong quá trình video phát – ví dụ, những mẫu liên quan đến xử lý màu sắc. Những mẫu khác sẽ ổn định hơn, chẳng hạn như những mẫu đại diện cho một nhân vật trong phim. Nghiên cứu đã xác nhận những dự đoán này. Nhưng Baldassano cũng tìm thấy các nhóm voxel giữ một mẫu ổn định trong suốt mỗi cảnh và chuyển đổi khi cảnh đó kết thúc. Ông kết luận rằng những các mẫu này này cấu thành “chữ ký” voxel của các cảnh.
Norman mô tả một nghiên cứu khác, của Asieh Zadbood, trong đó các đối tượng được yêu cầu kể lại bằng lời các cảnh trong “Sherlock” mà họ đã xem trước đó. Những lời kể của họ được ghi lại và phát cho một nhóm thứ hai, những người chưa bao giờ xem phim. Hóa ra, bất kể khi xem phim, khi mô tả nó hoặc khi nghe về nó, thì chúng ta đều có thể thấy các mẫu voxel tương tự được lặp lại. Các cảnh trong “Sherlock” không chỉ là những đoạn phim đơn thuần, mà chúng còn trở thành những khái niệm được lưu trữ trong tâm trí của người xem. Điều này có nghĩa là cảnh đó không chỉ đơn thuần là một trải nghiệm thị giác mà còn được não bộ mã hóa và lưu trữ dưới dạng một biểu diễn trừu tượng có thể được nhớ lại, suy nghĩ về, và thậm chí được chia sẻ với người khác. Điều quan trọng là, các biểu diễn này không phụ thuộc hoàn toàn vào chương trình gốc. Ngay cả khi ai đó chưa từng xem phim, họ vẫn có thể hiểu và hình dung về các cảnh đó nếu được mô tả bằng lời nói.
Thông qua nhiều thập kỷ làm thử nghiệm, các nhà tâm lý học đã thiết lập tầm quan trọng của kịch bản và cảnh đối với trí thông minh của chúng ta. Khi bước vào một căn phòng, bạn có thể quên lý do tại sao bạn bước vào đó; các nhà nghiên cứu nói rằng điều này xảy ra vì khi chúng ta đi qua cửa, đó là một ranh giới rõ ràng giữa hai không gian, hành động này có thể kích hoạt não bộ để kết thúc cảnh tinh thần hiện tại và bắt đầu một cảnh tinh thần mới. Ngược lại, khi loay hoay tìm đường trong một sân bay mới, một kịch bản “lên máy bay” kết hợp các cảnh khác nhau lại trong đầu chúng ta: đầu tiên là quầy vé, sau đó là xếp hàng qua cửa an ninh, sau đó là cổng ra máy bay, sau đó là hành lang máy bay, sau đó là chỗ ngồi của bạn. Tuy nhiên, đến bây giờ thì chúng ta vẫn chưa rõ việc tổ chức trải nghiệm thành các “cảnh” và sử dụng “kịch bản” để điều hướng các chuỗi hành động diễn ra ở đâu trong não.
Trong một nghiên cứu P.N.I. gần đây, những người nằm trong máy quét fMRI đã xem nhiều đoạn phim về các nhân vật ở sân bay. Bất kể chi tiết cụ thể của mỗi đoạn clip, não của các đối tượng nghiên cứu đều lướt qua cùng một chuỗi các sự kiện, tương ứng với những khoảnh khắc xác định ranh giới mà bất kỳ ai trong chúng ta cũng có thể nhận ra. Các kịch bản và các cảnh là có thật – có thể phát hiện chúng bằng máy móc. Bây giờ điều khiến Norman quan tâm nhất là những mô hình này được hình thành và tiếp thu trong não bộ như thế nào. Làm thế nào chúng ta xác định các cảnh trong một câu chuyện? Khi chúng ta bước vào một sân bay lạ, làm thế nào chúng ta biết cách tìm được cổng an ninh? Dù trong thực tế chúng ta cảm thấy rằng đây là những việc rất dễ dàng, nhưng nếu đào sâu vào bản chất thần kinh học của nó, chúng ta sẽ thấy đây là những chuỗi hành vi rất phức tạp – chúng ta hiếm khi “bối rối” về cách hiểu thế giới. Nhưng tại một thời điểm nào đó, mọi thứ đều mới. Khi ta còn là một đứa trẻ, cha mẹ ta đưa ta đi siêu thị lần đầu tiên; thực tế là, ngày nay, chúng ta đã quá quen thuộc với mấy cái siêu thị, đến nỗi đã hoàn toàn quên mất sự kỳ lạ của trải nghiệm đó. Khi ta học lái xe, nó thật khó khăn: mỗi giao lộ và mỗi lần chuyển làn đường đều hỗn loạn và gây bối rối. Bây giờ thì chúng ta hầu như không cần phải nghĩ về chúng nữa. Tâm trí của chúng ta ngay lập tức loại bỏ tất cả trừ những khác biệt quan trọng.
Khi kết thúc bài giảng của mình, một vài sinh viên đi về phía bục giảng, hy vọng được gặp Norman. Đối với những người còn lại trong lớp, cảnh này đã kết thúc. Mọi người thu dọn đồ đạc, leo lên cầu thang và bước ra ngoài đón ánh nắng buổi chiều.
Giống như Monti và Owen với Bệnh nhân số 23, các nhà nghiên cứu phương pháp giải mã suy nghĩ ngày nay chủ yếu tìm kiếm những suy nghĩ cụ thể đã được xác định trước. Nhưng Norman nói rằng, một “bộ giải mã suy nghĩ đa năng” là bước hợp lý tiếp theo cho nghiên cứu. Một thiết bị có thể nói ra những suy nghĩ của một người, ngay cả khi những suy nghĩ đó chưa bao giờ được quan sát trong máy fMRI. Vào năm 2018, Botvinick, bạn cùng phòng của Norman, đã cùng viết một bài báo trên tạp chí Nature Communications có tiêu đề “Hướng tới một Bộ giải mã Phổ quát về Ý nghĩa Ngôn ngữ từ Hoạt động của não bộ” (Toward a Universal Decoder of Linguistic Meaning from Brain Activation). Nhóm của Botvinick đã xây dựng một dạng sơ khai của những gì Norman đã mô tả: một hệ thống có khả năng phân tích hoạt động não của người tham gia khi họ đọc thầm các câu văn mới và chuyển đổi những hoạt động não đó thành các câu văn có ý nghĩa. Hệ thống này hoạt động bằng cách thiết lập mối liên hệ giữa các từ và các mẫu hoạt động não tương ứng. Khi một người nghĩ về một từ, não của họ sẽ tạo ra một mẫu hoạt động cụ thể. Hệ thống học cách nhận diện các mẫu này và liên kết chúng với các từ cụ thể. Sau khi đã “học” được đủ các mối liên hệ này, hệ thống có thể “đoán” được người đó đang nghĩ về từ nào khi nó bắt gặp một mẫu hoạt động não mới.
Công trình nghiên cứu tại Princeton được tài trợ bởi iARPA, một tổ chức R. & D. được điều hành bởi Văn phòng Giám đốc Tình báo Quốc gia. Brandon Minnery, người quản lý dự án iARPA cho chương trình Knowledge Representation in Neural Systems vào thời điểm đó, nói rằng ông đang xem xét một số ứng dụng tiềm năng cho công nghệ “đọc suy nghĩ”. Nếu bạn biết kiến thức được thể hiện như thế nào trong não, bạn có thể phân biệt giữa các đặc vụ tình báo mới vào nghề và chuyên gia. Bạn có thể dạy ngoại ngữ hiệu quả hơn bằng cách đánh giá khả năng học sinh hiểu và biểu diễn các từ trong tâm trí của họ so với cách một người bản xứ biểu diễn các từ đó có tương đồng với nhau không. Ý tưởng độc đáo nhất của Minnery – “Dù đó không phải là trọng tâm chính thức của chương trình,” – là thay đổi cách lập chỉ mục cơ sở dữ liệu. Thay vì dán nhãn các mục bằng tay, bạn có thể cho một người đang ngồi trong máy quét fMRI xem mục đó – trạng thái não của người đó có thể dùng làm nhãn. Sau đó, để truy vấn cơ sở dữ liệu, một người khác có thể ngồi trong máy quét và chỉ cần nghĩ về bất cứ điều gì người ấy muốn. Phần mềm có thể so sánh trạng thái não của người tìm kiếm với trạng thái não của người lập chỉ mục. Đó sẽ là giải pháp tối ưu cho vấn đề từ vựng.
Jack Gallant, một giáo sư tại Berkeley, người đã sử dụng công cụ giải mã suy nghĩ để tái tạo các đoạn video từ hình chụp não – khi bạn nằm trong trong máy quét xem một video, hệ thống có thể tái tạo lại các khung hình từ các đoạn clip tương ứng chỉ dựa trên các mẫu voxel của bạn. Gallant cho biết nhóm người quan tâm nhất đến việc giải mã suy nghĩ là các nhà đầu tư ở Thung lũng Silicon. Ông nói: “Tương lai, người ta có thể phát triển công nghệ này thành một chiếc mũ suy nghĩ.” Có thể sẽ có một công ty nào đó trả cho mọi người ba mươi nghìn đô la một năm để đội chiếc mũ suy nghĩ đó, cùng với kính mắt ghi video và các cảm biến khác, cho phép hệ thống ghi lại mọi thứ họ nhìn, nghe và nghĩ, cuối cùng tạo ra một danh mục đầy đủ về cách não của chúng ta hoạt động. Đội chiếc mũ suy nghĩ này, bạn có thể đặt câu hỏi cho máy tính của mình chỉ bằng cách tưởng tượng ra các từ. Có thể thực hiện dịch tức thời. Về lý thuyết, một cặp người đeo mũ có thể bỏ qua ngôn ngữ hoàn toàn, trò chuyện trực tiếp, từ não người này đến thẳng não người kia. Có lẽ chúng ta thậm chí có thể giao tiếp giữa các loài. Một trong số những thách thức mà các nhà thiết kế của một hệ thống như vậy sẽ phải đối mặt là, trên thực tế, máy fMRI ngày nay có thể nặng hơn 9 tấn. Người ta đang nỗ lực tìm cách để tạo ra các thiết bị hình ảnh thu nhỏ mạnh mẽ, sử dụng tia laser, siêu âm hoặc thậm chí cả vi sóng. “Nó sẽ đòi hỏi một cuộc cách mạng công nghệ mang tính đột phát,” Gallant nói. Tuy nhiên, các ý tưởng và lý thuyết nền tảng cơ bản đã được hình thành từ những năm 1950
Khi được hỏi về ý nghĩa của công nghệ giải mã suy nghĩ mới đối với những bệnh nhân đang ở trạng thái thực vật. Liệu các nhà nghiên cứu đã tiến gần đến việc tạo ra một thiết bị có thể cho phép con người giao tiếp bằng suy nghĩ một cách tự nhiên và trôi chảy hay chưa? Owen nói: “Hầu hết những thứ đó đều là nghiên cứu nhóm trên những người tham gia khỏe mạnh. Rất khó để thực hiện các thử nghiệm này trên một người duy nhất và lại là người thực vật. Dữ liệu thu thập được có đủ ổn định, rõ ràng và không bị nhiễu để có thể phân tích và đưa ra kết luận đáng tin cậy không?” Giao thức cơ bản của họ dựa trên các tín hiệu đơn giản: suy nghĩ về tennis nghĩa là có; suy nghĩ về việc đi bộ quanh nhà nghĩa là không. Các tín hiệu này đáng tin cậy và có thể được lặp lại, mạnh mẽ về mặt thống kê. Hóa ra là giao thức tương tự, kết hợp với một loạt các câu hỏi có hoặc không (‘Cơn đau ở nửa dưới cơ thể bạn phải không? Ở bên trái phải không?’), vẫn hoạt động tốt nhất. Owen nói: “Ngay cả khi bạn có thể làm được, sẽ mất nhiều thời gian hơn để giải mã câu ‘tôi thấy đau ở bàn chân phải’ so với việc trả lời một loạt các câu hỏi có hoặc không đơn giản. Hầu hết thời gian, tôi chỉ lặng lẽ ngồi và chờ đợi. Tôi tin rằng, vào một thời điểm nào đó trong tương lai, chúng ta sẽ có thể đọc được suy nghĩ. Mọi người sẽ có thể nói rõ, ‘Tên tôi là Adrian, và tôi là người Anh,’ và chúng ta sẽ có thể giải mã điều đó từ não của họ. Tôi không nghĩ điều đó sẽ xảy ra trong vòng ít nhất hai mươi năm nữa.”
Về cơ bản, câu chuyện về giải mã suy nghĩ gợi nhớ đến lịch sử hiểu biết của chúng ta về gen. Trong khoảng một trăm năm sau khi xuất bản cuốn “Nguồn gốc các loài” của Charles Darwin vào năm 1859, gen vẫn còn là một khái niệm trừu tượng, chỉ được hiểu là một thứ mà qua đó các đặc điểm được truyền từ cha mẹ sang con cái. Đến những năm 1950, các nhà sinh vật học vẫn đang thắc mắc là chính xác thì gen được tạo ra từ cái gì. Khi James Watson và Francis Crick tìm thấy chuỗi xoắn kép vào năm 1953, người ta mới biết rõ ràng là gen có hình dạng vật lý như thế nào. Năm mươi năm sau, chúng ta đã có thể giải mã trình tự bộ gen người; ngày nay, chúng ta đã có thể chỉnh sửa nó.
Trong quá khứ, suy nghĩ thường được coi là một thứ trừu tượng, khó định nghĩa và khó đo lường trong một thời gian rất dài. Tuy nhiên, với sự phát triển của khoa học thần kinh, chúng ta đã bắt đầu hiểu rằng suy nghĩ có thể được biểu diễn bằng các mẫu hoạt động thần kinh cụ thể trong não. Tâm trí của chúng ta – nơi duy nhất thực sự riêng tư của chúng ta – đã trở nên có thể bị nhìn thấy được từ bên ngoài. Trong tương lai, nếu một nhà trị liệu tâm lý muốn hiểu các mối quan hệ của bạn đang gặp vấn đề gì, họ có thể xem xét các khía cạnh khác nhau của hoạt động não để xác định chính xác vấn đề đó từ gốc rễ. Người ta đặt các đầu dò nội sọ vào não của một số bệnh nhân động kinh sắp được phẫu thuật; các nhà nghiên cứu hiện có thể sử dụng các đầu dò này không chỉ để theo dõi hoạt động não liên quan đến động kinh mà còn để điều chỉnh hoạt động não liên quan đến trầm cảm. Với khả năng điều chỉnh hoạt động não một cách chính xác và tinh vi hơn, tâm trí có thể được điều khiển đến bất cứ nơi nào người ta muốn. (Trí tưởng tượng của bạn sẽ quay cuồng với những khả năng, cả tốt và xấu mà công nghệ này mang lại.) Tất nhiên, chúng ta đã làm điều này bằng cách suy nghĩ, đọc, xem, nói chuyện – những hành động mà, sau khi tìm hiểu về giải mã suy nghĩ, có thể khiến chúng ta cảm thấy chúng cụ thể một cách kỳ lạ. Hãy hình dung các mô hình suy nghĩ của mình nhấp nháy bên trong tâm trí mình.
Trong lần đến thăm Princeton cuối cùng của tôi, Norman và tôi đã ăn trưa tại một nhà hàng Nhật Bản tên là Ajiten. Chúng tôi ngồi tại quầy và trải qua kịch bản quen thuộc. Thực đơn đến; chúng tôi xem qua chúng. Norman thấy một món ăn mà anh ấy chưa từng thấy trước đây – “một điểm mới trong không gian ramen,” anh ấy nói. Rất nhanh sau đó, một người bồi bàn đến lịch sự ngắt lời để hỏi chúng tôi đã sẵn sàng gọi món chưa.
“Chúng ta phải mổ xẻ thế giới tại những khớp nối của nó để hiểu: những tình huống nào tồn tại và các tình huống này hoạt động như thế nào?” Norman nói trong tiếng nhạc jazz vang lên ở phía sau. “Và đó là một vấn đề rất phức tạp. Bạn không được hướng dẫn rằng thế giới có mười lăm cách tồn tại khác nhau, và đây là chúng! Khi bạn bước ra thế giới, bạn phải cố gắng nhận định được là bạn đang ở trong tình huống nào.” Chúng tôi đang ở trong tình huống ăn trưa tại một nhà hàng Nhật Bản. Tôi chưa bao giờ đến nhà hàng này, nhưng không có gì về nó khiến tôi ngạc nhiên. Hóa ra, đây có thể là một trong những thành tựu cao nhất trong tự nhiên.
Norman nói với tôi rằng một sinh viên cũ của anh ấy, Sam Gershman, thích sử dụng các thuật ngữ “gom nhóm” và “tách nhóm” để mô tả cách không gian ý nghĩa của tâm trí phát triển. Khi bạn gặp một kích thích mới, bạn có gom nó với một khái niệm quen thuộc hay bạn tách ra một khái niệm mới? Khi di chuyển trong một sân bay mới, chúng ta gom máy máy soi ở sân bay đó với những máy soi mà chúng ta đã thấy trước đây, ngay cả khi những máy này có kiểu dáng, màu sắc và kích thước khác nhau. Ngược lại, lần đầu tiên chúng ta sử dụng máy quét sóng sóng mmWave – thiết bị đã thay thế máy quét thông thường ở sân bay – chúng ta tách nó ra thành một danh mục mới.
Norman chuyển sang nói về việc giải mã suy nghĩ nắm vị trí gì trong câu chuyện lớn hơn về nghiên cứu tâm trí. “Tôi nghĩ chúng ta đang ở một điểm trong khoa học thần kinh nhận thức, nơi chúng ta đã hiểu được nhiều mảnh ghép của câu đố,” anh nói. Vỏ não – một tấm phủ nhăn nheo nằm trên phần còn lại của não – làm cong và nén trải nghiệm, nhấn mạnh những gì quan trọng. Nó liên tục giao tiếp với các vùng não khác, bao gồm cả vùng hải mã, một cấu trúc hình con cá ngựa ở phần bên trong của thùy thái dương. Trong nhiều năm, vùng hải mã chỉ được biết đến như là nơi chứa đựng trí nhớ; những bệnh nhân đã cắt bỏ vùng hải mã của họ sống trong một hiện tại vĩnh viễn. Bây giờ chúng ta biết thêm rằng vùng hải mã lưu trữ các bản tóm tắt do vỏ não cung cấp: giống như nước sốt sau khi cô đặc. Chúng ta đối phó với thực tế bằng cách xây dựng một thư viện trải nghiệm rộng lớn – nhưng trải nghiệm đã được chắt lọc theo các chiều quan trọng. Nhóm nghiên cứu của Norman đã sử dụng công nghệ fMRI để tìm các mẫu voxel trong vỏ não được phản ánh trong vùng hải mã. Có lẽ não của chúng ta cũng giống như một người đi bộ đường dài so sánh bản đồ với địa hình.
Trong vài năm qua, các mạng lưới thần kinh nhân tạo bao gồm các mô hình cơ bản của cả hai vùng não đã chứng tỏ sức mạnh của nó một cách đáng ngạc nhiên. Có một vòng phản hồi giữa việc nghiên cứu A.I. và nghiên cứu tâm trí người thực, và nó đang diễn ra nhanh hơn. Các lý thuyết về trí nhớ con người đang cung cấp thông tin cho các thiết kế mới của hệ thống A.I., và những hệ thống đó, đến lượt nó, đang gợi ý những ý tưởng về những gì cần tìm trong não người. “Thật tuyệt vời khi đạt được đến điểm này,” anh nói.
Trên đường trở lại khuôn viên trường, Norman chỉ cho tôi chỗ Bảo tàng Nghệ thuật Đại học Princeton. Anh ấy nói với tôi rằng đó là một kho báu.
“Có gì trong đó?” Tôi hỏi.
“Những tác phẩm nghệ thuật vĩ đại!” anh ấy nói.
Sau khi chúng tôi chia tay, tôi quay lại bảo tàng. Tôi đến phòng trưng bày dưới tầng hầm, nơi chứa các hiện vật từ thế giới cổ đại. Không có gì đặc biệt thu hút tôi cho đến khi tôi nhìn thấy một chiếc áo choàng của thợ săn Tây Phi. Nó được làm từ vải bông nhuộm màu da tối. Có răng, và móng vuốt, và mai rùa treo trên đó – bùa hộ mệnh từ những lần giết chóc trước đây. Nó khiến tôi suy nghĩ, và tôi nán lại ở đó một lúc trước khi tiếp tục.
Sáu tháng sau, tôi đi cùng một vài người bạn đến một ngôi nhà nhỏ ở phía bắc New York. Trên tường, ở một góc, tôi nhận thấy một thứ trông giống như một chiếc chăn – một loại vật treo trang trí làm bằng len và lông vũ. Nó có một hình dạng kỳ lạ; dường như gợi nhớ về một thứ gì đó tôi đã thấy trước đây. Tôi nhìn chằm chằm vào nó. Sau đó tôi đột ngột nhận ra, theo những khía cạnh mà tôi không thể diễn đạt rõ ràng – chủ động hơn thụ động, nửa chừng giữa sống và chết. Đó là phần ngực. Đó là phần vai. Chiếc chăn và chiếc áo choàng của thợ săn khác biệt về mọi mặt, nhưng bằng cách nào đó vẫn có những điểm tương đồng. Tâm trí tôi đã tách ra, sau đó gom lại. Một số voxel đã nhấp nháy. Trong không gian ý nghĩa rộng lớn bên trong đầu tôi, một mảnh nhỏ của thế giới đang tìm thấy vị trí thích hợp của nó.



Bình luận về bài viết này