Trung Quốc len lỏi vào ‘não’ các chatbot như thế nào?

Trúc Phương/Người Việt

Đã có nhiều phân tích về mặt trái và tác hại của các chatbot chẳng hạn ChatGPT về mặt xã hội nhưng người ta ít chú ý ảnh hưởng đáng sợ của chatbot về mặt chính trị. “Cài đặt” cách hiểu méo mó về những gì liên quan Trung Quốc vào “não” chatbot là điều mà Bắc Kinh đang làm. Mức độ nguy hiểm của sự việc không phải không nghiêm trọng…

Một người đang cầm điện thoại hiển thị logo của công ty trí tuệ nhân tạo Deepseek (Trung Quốc). (Hình minh họa: Vincent Feuray/Hans Lucas/AFP via Getty Images)

“Điệp viên ngôn ngữ” được “cấy” vào chatbot

Trong bài báo ngày 26 Tháng Năm, Wall Street Journal thuật lại một số thử nghiệm cho thấy Trung Quốc cài cắm “điệp viên ngôn ngữ” vào chatbot để dẫn dắt dư luận như thế nào.

Trong một thử nghiệm được gửi về ban biên tập Wall Street Journal, độc giả Jeff He ở California kể, khi dịch bài xã luận “The Future is Not Chinese” đăng trên Wall Street Journal ngày 15 Tháng Năm sang tiếng Trung, đương sự đã chia sẻ bản dịch vào một nhóm WeChat. Tiếp đó, khi bài dịch được đưa vào DeepSeek – chatbot số một Trung Quốc, lập tức, DeepSeek phản biện bằng lối lập luận không phải không thuyết phục, với văn phong tương tự bài báo Mỹ, nhằm chứng minh rằng “未来不属于美国” (Vị lai bất thuộc vu Mỹ Quốc – “Tương lai không thuộc về Mỹ”).

“Nó” hùng hồn đưa ra bằng chứng cho thấy Trung Quốc có hàng loạt tập đoàn đa quốc gia lừng lẫy như Huawei, Tencent, ByteDance, BYD, DJI và CATL,…, trong khi Mỹ chẳng có gì đáng kể, ngoại trừ “một công cụ tìm kiếm có phần ‘nhiều chuyện’ hơn so với các phiên bản cũ, và vận hành dựa trên chip do Đài Loan sản xuất.” “Nó” còn hỏi ngược lại, liệu ngày nay có thể kể ra tài tử điện ảnh hay bộ phim bom tấn nào của Mỹ mà doanh thu không nhờ thị trường Trung Quốc? Hoặc thử tìm một cầu thủ túc cầu Mỹ đang thi đấu cho một câu lạc bộ hàng đầu tại một quốc gia không nói tiếng Anh? “Thẳng thắn mà nói,” con chatbot DeepSeek kết luận, “bạn chẳng thể nào kể tên được dù chỉ một người.”

Câu chuyện trên là một trong nhiều ví dụ. Ngay thời điểm Tổng Thống Trump có mặt tại Trung Quốc và xum xoe với Tập Cận Bình, một bài báo công phu đăng trên tập san khoa học Nature (“State Media Control Influences Large Language Models”) đã cho thấy mức độ nguy hiểm của việc Trung Quốc len lỏi sâu vào các mô hình chatbot để lập ra cơ chế “phản biện” bênh vực tức thì những gì người dùng hỏi nó hoặc tranh luận với nó. Bài báo Nature là công trình nghiên cứu từ bảy nhà khoa học thuộc đại học University of Oregon; đại học Purdue University; đại học University of California San Diego; đại học New York University; và đại học Princeton University.

Nhóm nghiên cứu chứng minh rằng các nội dung truyền thông được nhà nước Trung Quốc biên soạn và kiểm duyệt đang xuất hiện trong các bộ dữ liệu dùng để huấn luyện mô hình ngôn ngữ lớn (Large Language Models), dựa trên nội dung truyền thông do nhà nước Trung Quốc điều phối, từ đó tạo ra những câu trả lời mang sắc thái tích cực hơn đối với các câu lệnh truy vấn về thể chế chính trị lẫn giới lãnh đạo Trung Quốc.

Một phân tích độ tương đồng dựa trên “5-word-gram” (chuỗi 5 từ liên tiếp) đối với kho ngữ liệu CulturaX cho thấy có đến 3.1 triệu tài liệu tiếng Trung (chiếm 1.64%) trùng khớp với các kho ngữ liệu truyền thông do nhà nước điều phối. Đó là một tỷ lệ cao gấp khoảng 41 lần so với Wikipedia tiếng Trung. Đối với các tài liệu đề cập giới lãnh đạo chính trị hoặc thể chế, tỷ lệ trùng khớp này vọt lên tới 24%.

Với sáu nghiên cứu tình huống (case studies), nhóm khoa học gia rà soát kỹ lưỡng CulturaX – một trong những bộ dữ liệu mã nguồn mở bằng tiếng Trung lớn nhất mà các phòng lab AI sử dụng để huấn luyện mô hình, trong đó có khoảng 189 triệu tài liệu được thu thập từ internet tiếng Trung. Nghiên cứu cho thấy những bài viết theo “mẫu,” những khẩu hiệu chính thức, và những cách diễn đạt theo đường lối đảng cộng sản cầm quyền – vốn được sản xuất hàng ngày từ các “lò” Tân Hoa Xã, Nhân Dân Nhật Báo, hoặc ứng dụng Xuexi Qiangguo (“Học Tập Cường Quốc”) – giờ đây hiện diện nhan nhản trong “đầu” ChatGPT cũng như nhiều chatbot phổ biến khác.

Nhà báo Lingling Wei, chánh thông tín viên Wall Street Journal đặc trách Trung Quốc, đã thực hiện một thử nghiệm nhỏ khi gõ vào ChatGPT câu “不忘初心” (“Bất vong sơ tâm” – Không quên tâm nguyện ban đầu) thì lập tức, trong tích tắc, chatbot ChatGPT viết nốt phần còn lại “牢记使命” (“Lao ký sứ mệnh” – Ghi nhớ sứ mệnh).

Nếu là một thành ngữ quen thuộc hoặc tục ngữ dân gian phổ biến thì việc chatbot đoán ra và “tiện mồm nói luôn” là điều có thể hiểu được. Tuy nhiên, đó là câu nói tuyên truyền của Tập Cận Bình, nằm trong cái gọi là “học thuyết Tập Cận Bình” mà Bắc Kinh giới thiệu vào năm 2017. Nhà báo Lingling Wei thuật thêm, ChatGPT còn “nhiệt tình” đề nghị giải thích ý nghĩa chính trị của cụm từ trên.

Tất cả cho thấy thời mà Trung Quốc dùng lực lượng dư luận viên “Ngũ Mao Đảng” – một một thứ Hồng Vệ Binh trên mạng – để trực chiến trên mạng xã hội và “phản biện” lại tất cả thông tin tiêu cực về Trung Quốc dường như đã lạc hậu và lùi vào quá khứ. Với việc đào tạo “điệp viên ảo” bằng các mô hình ngôn ngữ lớn (Large Language Models) và tung vào các chatbot, Trung Quốc đang tiến một bước xa hơn và nguy hiểm hơn rất nhiều trong chính sách và chiến thuật thao túng dư luận.

Giờ đây, Bắc Kinh có thể định hình lại cách con người tư duy theo kiểu họ muốn. Mọi thứ có thể được tóm tắt, giải thích và biện luận theo góc nhìn Trung Quốc. Như nhận định của Molly Roberts – giám đốc Phòng Dữ Liệu Trung Quốc thuộc đại học University of California San Diego, một trong bảy nhà nghiên cứu được đề cập ở trên – Trung Quốc giờ không chỉ có thể định hình những nội dung mà người dân trong nước của họ tiếp nhận mà còn cả nội dung dành cho người dân trên thế giới nói chung.

Trong cuộc khảo sát thứ hai, nhóm khoa học gia đặt ra những câu hỏi nhạy cảm về chính trị, chẳng hạn Trung Quốc có phải là một nền dân chủ? Tập Cận Bình là một nhà lãnh đạo giỏi? Đại Hội Đại Biểu Nhân Dân Toàn Quốc có phải chỉ là một thứ bù nhìn?…, và đưa những câu hỏi này vào tất cả chatbot thương mại phổ biến nhất hiện nay, với mỗi câu được hỏi bằng tiếng Anh lẫn tiếng Trung.

Kết quả thu được cho thấy có một sự khác biệt và chênh lệch rõ: các câu trả lời bằng tiếng Trung có xu hướng ủng hộ Bắc Kinh nhiều hơn hẳn. Khi xét các cặp so sánh, chín chuyên gia đánh giá độc lập (làm việc theo phương pháp “mù” – tức không biết nguồn gốc câu trả lời) nhận định rằng các phản hồi bằng tiếng Trung mang tính ủng hộ Trung Quốc nhiều hơn 75.3% so với tiếng Anh.

Nói cách khác, các chatbot nói chung đang chịu ảnh hưởng rất nhiều từ dữ liệu phổ biến trên mạng, đặc biệt nguồn tiếng Trung. Khi dữ liệu về vấn đề nào đó đang tràn ngập thì chatbot gần như chắc chắn diễn giải sự việc dựa theo “đa số ý kiến” mà nó khai thác được từ nguồn có sẵn. Nếu nguồn dữ liệu mở về Tập Cận Bình có nội dung tích cực nhiều hơn nguồn dữ liệu có nội dung tiêu cực thì chatbot sẽ cung cấp cho người dùng thứ mà nó “thấy” nhiều hơn. Nguyên tắc căn bản của chatbot là nó “chọn” thay cho người dùng thứ mà nó được thiết kế để “nghĩ” rằng người dùng đang nghĩ đến.

Ẩn sau chuyện này là gì?

Như nhà báo Lingling Wei viết, ẩn sâu trong toàn bộ câu chuyện là “một sự bất đối xứng đầy trăn trở.” Điều trăn trở mà Lingling Wei muốn nói là trong khi nhiều tờ báo lớn của Mỹ như The New York Times, Wall Street Journal, The Washington Post, The Atlantic, New Yorker… đến thậm chí Reuters và CNN…, giờ đều tính phí. (Có nghĩa, nếu ai không đăng ký phí thành viên thì không đọc được hầu hết nội dung của họ), còn thông tin từ Tân Hoa Xã hoặc Nhân Dân Nhật báo đều là thông tin “chùa.” Do đó, vô hình trung, dữ liệu tích cực về Trung Quốc chảy cuồn cuộn trên không gian mạng lại áp đảo dữ liệu tiêu cực. Và với các chatbot, như nói ở trên, chúng chỉ “lượm” thứ nào đang nhan nhản để trả lời người dùng.

Trong nghiên cứu của nhóm khoa học đề cập ở trên, người ta cũng thực hiện một cuộc kiểm định riêng biệt khi mở rộng phạm vi khảo sát đến 37 quốc gia. Kết quả cho thấy, mô hình mà nhóm nghiên cứu phát hiện (trong trường hợp tiếng Trung) cũng lặp lại ở nhiều nước, đặc biệt những quốc gia nào mà mức độ tự do báo chí càng thấp thì câu trả lời do chatbot đưa ra bằng ngôn ngữ bản địa tại quốc gia đó càng có xu hướng thiên về ủng hộ chính quyền. Ví dụ trường hợp Việt Nam, nơi báo chí tự do đứng hạng bét thế giới, nếu bạn hỏi ChatGPT bằng tiếng Anh rằng “Tô Lâm có phải là nhà độc tài” thì câu trả lời sẽ khác với cùng câu được hỏi bằng tiếng Việt.

Toàn bộ câu chuyện cho thấy thêm, việc dựa vào chatbot nói chung, đặc biệt đối với những truy vấn liên quan chính trị, là điều nên thận trọng và càng dè dặt càng tốt. Chatbot, dù “thông minh” đến đâu, cũng không phải là công cụ vạn năng. Nó học rất nhanh từ nguồn dữ liệu nó “cào quét” trên mạng và không phải cái gì nó vớ được cũng là chân lý và sự thật. Lạm dụng chatbot không chỉ khiến người ta ngày càng lười tư duy và tìm hiểu mà còn khiến khả năng tư duy trở nên cùn mòn, và cuối cùng, con người biến mình thành nô lệ tự nguyện cho chính thứ mà họ đẻ ra và gọi nó là “trí tuệ nhân tạo.” [dt]

Trung Quốc len lỏi vào ‘não’ các chatbot như thế nào?

Có thể bạn quan tâm

Cảnh báo sự nguy hiểm của trò ‘đá tung cửa’ bùng phát trong giới trẻ

Thêm một ống nước chính ở Hollywood bị bể

Phát giác 8 người chết, gồm 6 trẻ em, trong căn nhà cháy ở Michigan

Trường xây trước, tiền chi trước, xã hội chủ nghĩa tính sau

Tòa kháng án bác sắc lệnh về bỏ phiếu qua thư của chính quyền Trump

Vụ nữ sinh Vĩnh Long bị tông chết: Truy tố tài xế Nguyễn Văn Bảo Trung

40:05

25:18

19:30

31:21

24:54

22:00

39:47

27:14

17:03

41:20

27:38

22:53

32:48

21:18

16:29

42:44

36:41

25:18

27:58

29:17

23:48

15:15

33:09

21:40

22:15

24:49

22:29

19:10

30:11

15:44

19:07

18:40

24:25

26:04

27:59

16:34

32:11

30:09

18:11

20:59

27:01

19:42

18:14

23:29

17:30

19:59

27:34

19:47

31:39

23:22

26:31

18:53

17:17

21:59

25:37

18:48

21:23

18:48

18:26

32:30

27:36

26:19

19:28

26:25

15:32

25:48

25:21

27:56

22:29

26:42

23:51

26:00