Một nhà toán học bước vào một quán bar (thông tin sai lệch)

Nút nguồn: 1865101

Thông tin sai lệch, thông tin sai lệch, thông tin giải trí, thuật toán - nếu các cuộc tranh luận về tương lai của phương tiện truyền thông trong vài thập kỷ qua có ý nghĩa gì thì ít nhất chúng cũng đã để lại dấu ấn sâu sắc trong ngôn ngữ tiếng Anh. Đã có rất nhiều lời chỉ trích và lo sợ về những gì mạng xã hội đang gây ra cho chúng ta, từ tâm lý và thần kinh cá nhân của chúng ta cho đến những lo ngại rộng hơn về sức mạnh của các xã hội dân chủ. Như Joseph Bernstein đã nói gần đây, sự chuyển đổi từ “sự khôn ngoan của đám đông” sang “thông tin sai lệch” thực sự là một sự thay đổi đột ngột.

Thông tin sai lệch là gì? Nó có tồn tại không, và nếu có thì nó ở đâu và làm sao chúng ta biết mình đang nhìn vào nó? Chúng ta có nên quan tâm đến những gì thuật toán của các nền tảng yêu thích của chúng ta cho chúng ta thấy khi chúng cố gắng thu hút sự chú ý của chúng ta không? Chính những câu hỏi phức tạp về toán học và khoa học xã hội đó đã Noah Giansiracusa quan tâm đến chủ đề này.

Giansiracusa, giáo sư tại Đại học Bentley ở Boston, được đào tạo về toán học (tập trung nghiên cứu vào các lĩnh vực như hình học đại số), nhưng ông cũng có thiên hướng xem xét các chủ đề xã hội qua lăng kính toán học, chẳng hạn như kết nối hình học tính toán lên Tòa án tối cao. Gần đây nhất, ông đã xuất bản cuốn sách có tựa đề “Cách thuật toán tạo và ngăn chặn tin tức giả” để khám phá một số câu hỏi đầy thách thức xung quanh bối cảnh truyền thông ngày nay và cách công nghệ đang làm trầm trọng thêm và cải thiện những xu hướng đó.

Gần đây tôi đã tổ chức Giansiracusa trên Twitter Space và vì Twitter không giúp bạn dễ dàng nghe những cuộc nói chuyện này sau đó (phù du!), nên tôi nghĩ rằng tôi sẽ rút ra những điều thú vị nhất trong cuộc trò chuyện của chúng ta cho bạn và hậu thế.

Cuộc phỏng vấn này đã được chỉnh sửa và cô đọng cho rõ ràng.

Daniel Crichton: Làm thế nào bạn quyết định nghiên cứu tin tức giả và viết cuốn sách này?

Noah Giansiracusa: Một điều tôi nhận thấy là có rất nhiều cuộc thảo luận khoa học chính trị, xã hội học thực sự thú vị về tin giả và những thứ tương tự. Và về mặt kỹ thuật, bạn sẽ thấy những điều như Mark Zuckerberg nói rằng AI sẽ giải quyết tất cả những vấn đề này. Có vẻ như hơi khó để thu hẹp khoảng cách đó.

Mọi người có lẽ đã nghe câu nói gần đây của Biden, “họ đang giết người,” liên quan đến thông tin sai lệch trên mạng xã hội. Vì vậy, chúng ta có các chính trị gia đang nói về những điều mà họ khó thực sự nắm bắt được khía cạnh thuật toán. Sau đó, chúng tôi có những người làm khoa học máy tính thực sự hiểu sâu về chi tiết. Vì vậy, tôi đang ngồi ở giữa, tôi không phải là một người thực sự đam mê khoa học máy tính. Vì vậy, tôi nghĩ sẽ dễ dàng hơn một chút nếu tôi chỉ cần lùi lại và có được cái nhìn toàn cảnh.

Vào cuối ngày, tôi chỉ cảm thấy mình muốn khám phá thêm một số tương tác với xã hội nơi mọi thứ trở nên lộn xộn, nơi toán học không quá rõ ràng.

Crichton: Xuất thân từ nền tảng toán học, bạn đang bước vào lĩnh vực gây tranh cãi này, nơi có rất nhiều người đã viết từ nhiều góc độ khác nhau. Mọi người đang làm đúng điều gì trong lĩnh vực này và có lẽ mọi người đã bỏ lỡ một số sắc thái nào?

Giansiracusa: Có rất nhiều tác phẩm báo chí đáng kinh ngạc; Tôi rất ngạc nhiên khi thấy rất nhiều nhà báo thực sự có thể xử lý những vấn đề kỹ thuật khá hay. Nhưng tôi sẽ nói một điều rằng có lẽ họ không sai, nhưng điều làm tôi ngạc nhiên là, có rất nhiều lần khi một bài báo học thuật được xuất bản, hoặc thậm chí là một thông báo từ Google hay Facebook hoặc một trong những công ty công nghệ này, và họ sẽ đề cập đến điều gì đó, và nhà báo có thể sẽ trích dẫn một câu trích dẫn và cố gắng mô tả nó, nhưng họ có vẻ hơi ngại khi thực sự cố gắng nhìn và hiểu nó. Và tôi không nghĩ là họ không thể làm được, nó thực sự giống một sự đe dọa và sợ hãi hơn.

Một điều mà tôi đã trải qua rất nhiều khi làm giáo viên dạy toán là mọi người rất sợ nói sai và mắc lỗi. Và điều này áp dụng cho những nhà báo phải viết về những vấn đề kỹ thuật, họ không muốn nói điều gì sai. Vì vậy, việc trích dẫn một thông cáo báo chí từ Facebook hoặc trích dẫn một chuyên gia sẽ dễ dàng hơn.

Một điều rất thú vị và đẹp đẽ về toán học thuần túy là bạn không thực sự lo lắng về việc mắc sai lầm, bạn chỉ cần thử các ý tưởng và xem chúng dẫn đến đâu và bạn thấy tất cả những tương tác này. Khi bạn đã sẵn sàng viết một bài báo hoặc diễn thuyết, bạn hãy kiểm tra các chi tiết. Nhưng phần lớn toán học là quá trình sáng tạo nơi bạn khám phá và xem các ý tưởng tương tác với nhau như thế nào. Bạn nghĩ rằng việc đào tạo tôi thành một nhà toán học sẽ khiến tôi e ngại về việc mắc sai lầm và nói chính xác là rất chính xác, nhưng nó lại có tác dụng ngược lại.

Thứ hai, rất nhiều thứ mang tính thuật toán, chúng không phức tạp như vẻ ngoài của nó. Tôi không ngồi đó thực hiện chúng, tôi chắc chắn rằng việc lập trình chúng rất khó. Nhưng chỉ là bức tranh toàn cảnh, tất cả các thuật toán ngày nay, rất nhiều thứ trong số này đều dựa trên deep learning. Vì vậy, bạn có một số mạng lưới thần kinh, đối với tôi với tư cách là một người ngoài cuộc, họ đang sử dụng kiến ​​trúc gì không thực sự quan trọng, tất cả những gì thực sự quan trọng là, các yếu tố dự đoán là gì? Về cơ bản, các biến mà bạn cung cấp cho thuật toán học máy này là gì? Và nó đang cố gắng xuất ra cái gì? Đó là những điều mà ai cũng có thể hiểu được.

Crichton: Một trong những thách thức lớn mà tôi nghĩ khi phân tích các thuật toán này là sự thiếu minh bạch. Chẳng hạn, không giống như thế giới toán học thuần túy, vốn là một cộng đồng các học giả làm việc để giải quyết các vấn đề, nhiều công ty trong số này thực sự có thể khá bất đồng trong việc cung cấp dữ liệu và phân tích cho cộng đồng rộng lớn hơn.

Giansiracusa: Có vẻ như có một giới hạn đối với những gì mà bất cứ ai có thể suy luận chỉ bằng cách tồn tại từ bên ngoài.

Vì vậy, một ví dụ điển hình là với YouTube - các nhóm học giả muốn khám phá xem liệu thuật toán đề xuất của YouTube có đưa mọi người xuống những hố thỏ lý thuyết âm mưu của chủ nghĩa cực đoan hay không. Thách thức là vì đây là thuật toán đề xuất, nó sử dụng công nghệ học sâu, dựa trên hàng trăm, hàng trăm yếu tố dự đoán dựa trên lịch sử tìm kiếm, nhân khẩu học của bạn, các video khác mà bạn đã xem và trong bao lâu — tất cả những điều này. Nó được tùy chỉnh phù hợp với bạn và trải nghiệm của bạn nên tất cả các nghiên cứu tôi tìm được đều sử dụng chế độ ẩn danh.

Vì vậy, về cơ bản họ là người dùng không có lịch sử tìm kiếm, không có thông tin và họ sẽ đi tới một video rồi nhấp vào video được đề xuất đầu tiên rồi đến video tiếp theo. Và hãy xem thuật toán đưa mọi người đến đâu. Đó là một trải nghiệm khác với một người dùng thực sự có lịch sử. Và điều này thực sự khó khăn. Tôi không nghĩ có ai đã tìm ra cách hay để khám phá thuật toán YouTube từ bên ngoài theo thuật toán.

Thành thật mà nói, cách duy nhất tôi nghĩ bạn có thể làm giống như một nghiên cứu kiểu cũ, nơi bạn tuyển cả nhóm tình nguyện viên và đặt một công cụ theo dõi trên máy tính của họ và nói, “Này, cứ sống theo cách của bạn đi. thường làm với lịch sử của bạn và mọi thứ và cho chúng tôi biết những video bạn đang xem.” Vì vậy, thật khó để vượt qua sự thật rằng rất nhiều thuật toán này, hầu hết, tôi có thể nói, đều dựa chủ yếu vào dữ liệu cá nhân của bạn. Chúng ta không biết làm thế nào để nghiên cứu điều đó một cách tổng thể.

Và không chỉ có tôi hay bất kỳ ai khác ở bên ngoài gặp rắc rối vì chúng tôi không có dữ liệu. Ngay cả những người trong các công ty này cũng là người đã xây dựng thuật toán và biết thuật toán này hoạt động như thế nào trên giấy tờ, nhưng họ không biết nó sẽ hoạt động như thế nào trên thực tế. Nó giống như con quái vật của Frankenstein: họ chế tạo ra thứ này nhưng họ không biết nó sẽ vận hành như thế nào. Vì vậy, cách duy nhất tôi nghĩ bạn có thể thực sự nghiên cứu nó là nếu những người ở bên trong có dữ liệu đó cố gắng hết sức và dành thời gian cũng như nguồn lực để nghiên cứu nó.

Crichton: Có rất nhiều số liệu được sử dụng để đánh giá thông tin sai lệch và xác định mức độ tương tác trên một nền tảng. Xuất phát từ nền tảng toán học của mình, bạn có nghĩ những thước đo đó có hiệu quả không?

Giansiracusa: Mọi người cố gắng vạch trần thông tin sai lệch. Nhưng trong quá trình đó, họ có thể bình luận về nó, họ có thể tweet lại hoặc chia sẻ nó và điều đó được coi là sự tương tác. Vì vậy, rất nhiều thước đo về mức độ tương tác này, liệu chúng có thực sự mang tính tích cực hay chỉ là tất cả mức độ tương tác? Bạn biết đấy, tất cả đều được gộp lại với nhau.

Điều này cũng xảy ra trong nghiên cứu học thuật. Trích dẫn là thước đo phổ quát về mức độ thành công của nghiên cứu. Chà, những thứ thực sự không có thật như bài báo về bệnh tự kỷ và vắc xin ban đầu của Wakefield đã nhận được rất nhiều trích dẫn, rất nhiều người trong số họ trích dẫn nó vì họ cho rằng nó đúng, nhưng rất nhiều trong số đó là các nhà khoa học đã vạch trần nó, họ trích dẫn nó trong bài báo của mình để nói, chúng tôi chứng minh rằng lý thuyết này là sai. Nhưng bằng cách nào đó một trích dẫn là một trích dẫn. Vì vậy, tất cả đều được tính vào thước đo thành công.

Vì vậy, tôi nghĩ đó là một chút những gì đang xảy ra với sự tham gia. Nếu tôi đăng nội dung nào đó lên nhận xét của mình với nội dung: “Này, thật điên rồ”, làm sao thuật toán biết liệu tôi có ủng hộ nội dung đó hay không? Họ có thể sử dụng một số quy trình xử lý ngôn ngữ AI để thử nhưng tôi không chắc liệu có đúng như vậy hay không và cần rất nhiều nỗ lực để làm được điều đó.

Crichton: Cuối cùng, tôi muốn nói một chút về GPT-3 và mối quan tâm xung quanh phương tiện truyền thông tổng hợp và tin tức giả mạo. Có rất nhiều lo ngại rằng các bot AI sẽ khiến các phương tiện truyền thông tràn ngập thông tin sai lệch - chúng ta nên sợ hãi hay không sợ hãi đến mức nào?

Giansiracusa: Bởi vì cuốn sách của tôi thực sự phát triển từ một lớp học kinh nghiệm, tôi muốn cố gắng giữ thái độ khách quan và chỉ cung cấp thông tin cho mọi người và để họ tự đưa ra quyết định. Tôi quyết định cố gắng bỏ qua cuộc tranh luận đó và thực sự để cả hai bên cùng nói. Tôi nghĩ các thuật toán nguồn cấp tin tức và thuật toán nhận dạng đã khuếch đại rất nhiều nội dung có hại và điều đó đang tàn phá xã hội. Nhưng cũng có nhiều tiến bộ đáng kinh ngạc trong việc sử dụng thuật toán một cách hiệu quả và thành công để hạn chế tin giả.

Có những nhà công nghệ không tưởng này, những người nói rằng AI sẽ sửa chữa mọi thứ, chúng ta sẽ có những thuật toán nói sự thật, kiểm tra sự thật và có thể phát hiện thông tin sai lệch và gỡ bỏ nó. Có một số tiến bộ, nhưng điều đó sẽ không xảy ra và sẽ không bao giờ thành công hoàn toàn. Nó sẽ luôn cần phải dựa vào con người. Nhưng một điều khác mà chúng ta có là nỗi sợ hãi phi lý. Có một loại viễn tưởng AI cường điệu, trong đó các thuật toán rất mạnh mẽ, giống như loại thứ kỳ dị mà chúng sẽ tiêu diệt chúng ta.

Khi tin giả sâu lần đầu tiên được đưa tin vào năm 2018 và GPT-3 đã được phát hành cách đây vài năm, đã có rất nhiều lo sợ rằng, “Ôi chết tiệt, điều này sẽ khiến chúng ta gặp phải mọi vấn đề với tin tức giả và hiểu được đâu là sự thật trong thế giới khó khăn hơn rất nhiều.” Và tôi nghĩ bây giờ chúng ta đã có khoảng cách vài năm, chúng ta có thể thấy rằng họ đã làm mọi việc khó khăn hơn một chút, nhưng gần như không đáng kể như chúng ta mong đợi. Và vấn đề chính là về mặt tâm lý và kinh tế hơn bất cứ điều gì.

Vì vậy, các tác giả ban đầu của GPT-3 có một bài nghiên cứu giới thiệu thuật toán và một trong những điều họ đã làm là thử nghiệm trong đó họ dán một số văn bản vào và mở rộng nó thành một bài báo, sau đó họ yêu cầu một số tình nguyện viên đánh giá và đoán xem thuật toán nào là bài viết do thuật toán tạo ra và bài viết nào là bài viết do con người tạo ra. Họ báo cáo rằng họ có độ chính xác rất, rất gần 50%, nghĩa là gần như không vượt quá những dự đoán ngẫu nhiên. Bạn biết đấy, điều đó nghe vừa tuyệt vời vừa đáng sợ.

Nhưng nếu bạn nhìn vào chi tiết, chúng sẽ mở rộng giống như một dòng tiêu đề cho một đoạn văn bản. Nếu bạn cố gắng viết một bài báo dài cả The Atlantic hoặc New Yorker, bạn sẽ bắt đầu thấy sự khác biệt, suy nghĩ sẽ lan man. Các tác giả của bài báo này đã không đề cập đến điều này, họ chỉ thực hiện thí nghiệm của mình và nói, "Này, hãy nhìn xem nó thành công như thế nào."

Như vậy có vẻ thuyết phục, họ có thể làm ra những bài viết ấn tượng này. Nhưng xét cho cùng thì đây là lý do chính tại sao GPT-3 không có nhiều biến đổi đối với tin tức giả mạo và thông tin sai lệch cũng như tất cả những thứ liên quan. Đó là bởi vì tin tức giả phần lớn là rác rưởi. Nó được viết kém, chất lượng thấp, quá rẻ và được sản xuất nhanh đến mức bạn có thể trả tiền cho đứa cháu 16 tuổi của mình để tạo ra một loạt bài báo giả trong vài phút.

Toán học không giúp tôi thấy được điều này nhiều lắm. Chỉ là bằng cách nào đó, điều chính mà chúng ta đang cố gắng làm trong toán học là tỏ ra hoài nghi. Vì vậy, bạn phải đặt câu hỏi về những điều này và có một chút hoài nghi.

Nguồn: https://techcrunch.com/2021/08/20/a-mathematician-walks-into-a-bar-of-disinformation/

Dấu thời gian:

Thêm từ Techcrunch