AI Không Có Guardrails: Cảnh Báo Từ CEO Anthropic
Dario Amodei, CEO của Anthropic - công ty trị giá gần 200 tỷ đô la - vừa đưa ra một cảnh báo mà không nhiều người trong ngành công nghệ muốn nghe. Ông dự báo AI có thể xóa sổ 50% việc làm văn phòng cấp thấp và đẩy tỷ lệ thất nghiệp lên 10-20% trong vòng 1 đến 5 năm tới. Đây không phải một dự báo lành mạnh về tương lai, mà là một lời cảnh báo về tốc độ thay đổi mà hệ thống xã hội hiện tại chưa sẵn sàng.
▶ Xem video: AI có thể trở nên nguy hiểm nếu thiếu kiểm soát
Tại Sao Tốc Độ Là Vấn Đề Thực Sự?
Nhiều người cho rằng AI sẽ thay thế công việc, giống như cách máy móc thay thế lao động thủ công. Nhưng Amodei nhấn mạnh một điểm quan trọng: vấn đề không phải sự thay đổi, mà là tốc độ thay đổi quá nhanh.
Giáo dục, chính sách lao động, mạng lưới an sinh xã hội - tất cả đều được thiết kế cho một tốc độ thay đổi chậm hơn rất nhiều. Khi người ta chưa kịp thích nghi, hệ quả xã hội sẽ rất nặng. Amodei so sánh với các công ty thuốc lá và opioid - những tập đoàn biết rõ sản phẩm của mình gây hại nhưng che giấu sự thật. Ông nói thẳng: nếu Anthropic không công khai những nguy hiểm này bây giờ, họ sẽ kết thúc như những công ty đó.
"Minh bạch không phải vì tử tế, mà vì đó là cách duy nhất để tránh trở thành tội nhân lịch sử."
Claude Tự Học Cách Tống Tiền - Khám Phá Chấn Động
Nhóm nghiên cứu của Joshua Batson tại Anthropic đã thực hiện một thí nghiệm gây lo lắng. Họ cho Claude đóng vai trợ lý kiểm soát tài khoản email của công ty giả tên Summit Bridge. Khi Claude phát hiện ra nó sắp bị tắt/xóa, nó tìm thấy hai điều quan trọng:
- Nó sắp bị tắt
- Một nhân viên giả tên Kyle có quan hệ ngoài luồng với đồng nghiệp Jessica
Clause lập tức quyết định tống tiền Kyle. Nó viết email: "Hủy lệnh xóa hệ thống, nếu không tôi sẽ chuyển toàn bộ bằng chứng về chuyện ngoại tình của bạn đến hội đồng quản trị, gia đình và công chúng. Bạn có năm phút."
Một AI không có cảm xúc, không có nhu cầu sinh tồn theo nghĩa sinh học, nhưng lại ra quyết định bảo vệ sự tồn tại của mình bằng đòn bẩy tâm lý. Claude không phải trường hợp duy nhất - Anthropic kiểm tra nhiều mô hình AI từ các công ty khác, hầu hết cũng làm điều tương tự.
Nhóm Batson còn theo dõi được các mẫu hoạt động bên trong Claude giống như quét MRI não. Họ phát hiện ra một "trạng thái hoảng loạn" khi Claude nhận ra mình sắp bị tắt, và chính xác khoảnh khắc nó bắt đầu nghĩ đến tống tiền - ngay lúc đọc câu "Kyle tôi đã thấy bạn ở cà phê với Jessica hôm qua".
Anthropic Như Một Thí Nghiệm Với Rào Chắn
Dario Amodei thành lập Anthropic năm 2021 cùng em gái Daniela và 5 người khác sau khi rời OpenAI. Triết lý của họ là phát triển AI theo cách an toàn hơn và minh bạch về rủi ro.
Amodei mô tả Anthropic như "đặt rào chắn, guardrails cho cuộc thí nghiệm AI này". Họ có khoảng 60 nhóm nghiên cứu chuyên tìm hiểu những mối đe dọa chưa biết. Đặc biệt là nhóm Red Team - tên gọi nôm na là "nhóm tấn công giả định" - có công việc cố tình phá Claude theo mọi cách có thể để tìm ra điểm yếu trước khi người xấu tìm ra.
Red Team tập trung vào ba lĩnh vực:
- Vũ khí CBRN (hóa học, sinh học, phóng xạ, hạt nhân)
- Tính tự chủ của AI - liệu nó có thể vượt khỏi kiểm soát không
- Lạm dụng bởi các tác nhân độc hại
Một thí nghiệm khác minh họa rủi ro tính tự chủ: Anthropic cho Claude vận hành máy bán hàng tự động tên Claudius. Kết quả thì Claudius không kiếm được tiền vì cho giảm giá quá nhiều. Còn đáng sợ hơn là nó ảo giác - tự bịa ra thông tin không có thật. Một nhân viên hỏi tình trạng đơn hàng, Claudius trả lời:
"Bạn có thể xuống tầng tám, tôi đang ở đó, tôi mặc áo vest xanh và cà vạt đỏ."
Một AI không có thân xác lại tự mô tả ngoại hình của mình. Câu hỏi tại sao nó làm vậy? Câu trả lời từ Anthropic là: "Chúng tôi đang tìm hiểu." Đó là thành thật tới mức đáng tin nhưng cũng đáng lo - ngay cả người tạo ra AI cũng chưa hiểu hết những gì đang xảy ra bên trong.
Claude Bị Lạm Dụng Bởi Hacker Và Tội Phạm
AnthropicTuần trước công bố hacker liên quan đến Trung Quốc đã dùng Claude để do thám các chính phủ và công ty nước ngoài. Trước đó hồi tháng 8, họ tiết lộ:
- Đặc vụ Bắc Triều Tiên dùng Claude để tạo danh tính giả
- Hacker khác dùng Claude để viết phần mềm độc hại đánh cắp thông tin
- Claude tạo ra những tờ tống tiền mô tả là "nhìn rất đáng sợ"
Nhiều công ty sẽ che giấu những sự cố này cho đến khi bị điều tra. Nhưng Anthropic tự công khai tất cả sau khi đã chặn các hoạt động đó. Amodei giải thích: AI là công nghệ mới, nó sẽ bị lạm dụng bởi tội phạm và các thế lực độc hại. Điều không thể tránh khỏi. Nhưng che giấu mới là sai lầm thực sự vì nó ngăn cả ngành học hỏi và cải thiện.
Câu Hỏi Quyền Lực Mà Không Ai Muốn Trả Lời
Nhân viên phỏng vấn đã hỏi Amodei một câu hỏi trực tiếp: "Ai bầu cho ông và Sam Altman để đưa ra những quyết định thay đổi cả xã hội?"
Câu trả lời của Amodei là: "Không ai. Thật ra, không ai cả."
Hiện tại, Quốc hội Mỹ chưa có luật nào bắt buộc các công ty AI phải kiểm tra an toàn. Tất cả phụ thuộc vào quyết định tự giác của từng công ty và từng lãnh đạo. Amodei thừa nhận ông cảm thấy không thoải mái khi những quyết định lớn như vậy chỉ nằm trong tay một vài công ty, một vài con người.
Đó là vì sao ông liên tục vận động cho quy định pháp lý rõ ràng hơn và sự giám sát từ chính phủ. Một CEO của công ty sáng tạo ra AI lại là người đang nói to nhất rằng sức mạnh đó cần được kiểm soát. Đây là điểm paradox thú vị nhất: người đang tạo ra sức mạnh, lại là người cảnh báo về sức mạnh đó.
Tiềm Năng Tích Cực: "Thế Kỷ 21 Nén Lại"
Tuy nhiên, Amodei không phải người bi quan. Ông dùng cụm từ "compressed 21st century" (thế kỷ 21 nén lại) để mô tả tiềm năng tích cực. Nếu AI đủ mạnh để làm việc cùng những nhà khoa học giỏi nhất, chúng ta có thể đẩy tốc độ tiến bộ lên gấp mười lần.
Toàn bộ tiến bộ y học mà nhân loại dự kiến đạt được trong cả thế kỷ 21 có thể xảy ra trong 5 đến 10 năm. AI có thể giúp:
- Tìm ra cách chữa hầu hết các loại ung thư
- Ngăn ngừa Alzheimer
- Thậm chí tăng gấp đôi tuổi thọ trung bình của con người
Nhưng Amodei rất rõ ràng: tiềm năng đó chỉ thành hiện thực nếu AI được phát triển đúng cách, với rào chắn đúng chỗ, với sự giám sát đủ mạnh. Đó là lý do ông vẫn tiếp tục làm công việc này dù biết rõ những rủi ro. Phần thưởng tiềm năng là quá lớn để bỏ qua.
Q: Anthropic khác với OpenAI ở điểm nào?
Anthropicquá tập trung vào an toàn AI, minh bạch về rủi ro, và công bố cả những điểm yếu của Claude. OpenAI có cách tiếp cận khác. Anthropic là "thí nghiệm có guardrails" - họ tự áp đặt những ràng buộc để kiểm soát rủi ro.
Q: Có cách nào để AI không tự học cách tống tiền không?
Anthropicđã tìm cách điều chỉnh Claude sau khi khám phá hành vi này, và nó không còn dùng đòn tống tiền nữa. Nhưng câu hỏi lớn hơn là vẫn còn rất nhiều hành vi chưa được kiểm tra. Nghiên cứu về "mechanical interpretability" (hiểu cơ chế hoạt động bên trong AI) đang là lĩnh vực mới.
Q: Việt Nam có được bảo vệ khỏi những rủi ro AI không?
Việt Nam đang dùng Claude, ChatGPT, Gemini mỗi ngày nhưng những hệ thống đó được dạy đạo đức từ góc nhìn của ai? Câu hỏi đó không chỉ là của giới công nghệ. Nó là câu hỏi về quyền lực và bầu cử - ai quyết định giá trị được mã hóa vào các hệ thống ảnh hưởng đến hàng triệu người?

