Thế giới ngầm tội phạm của AI bị phơi bày

Với sự phát triển nhanh chóng của trí tuệ nhân tạo (AI), một thị trường ngầm mới đang nổi lên, lợi dụng AI để hỗ trợ tội phạm mạng. Một cuộc điều tra chi tiết đã được tiến hành để tiết lộ cách các dịch vụ AI được sử dụng trên thị trường đen và cách các mô hình ngôn ngữ lớn (LLM) đang được tận dụng để tạo ra phần mềm độc hại, email lừa đảo, và các trang web giả mạo. Dưới đây là những phát hiện quan trọng về việc AI đang bị lạm dụng trong không gian mạng.

Dịch vụ AI độc hại

Các nhà cung cấp dịch vụ chủ yếu dựa vào hai loại LLM. Một là các LLM chưa được kiểm duyệt (những mô hình chưa được tinh chỉnh theo các tiêu chuẩn đạo đức con người hoặc thiếu bộ lọc đầu vào/đầu ra), và hai là các mô hình công khai đã bị phá vỡ bảo mật để vượt qua các rào cản tích hợp. Những dịch vụ này được bán trên các thị trường và diễn đàn hacker với giá thấp hơn so với phần mềm độc hại truyền thống, nhưng các dịch vụ sử dụng mô hình tinh chỉnh để tạo ra đầu ra độc hại lại có giá cao hơn. Đáng chú ý, một dịch vụ đã tạo ra hơn 28.000 USD doanh thu chỉ trong hai tháng.

Thị trường mở rộng

Các nhà nghiên cứu đã xác định 212 dịch vụ độc hại, trong đó 125 được lưu trữ trên nền tảng Poe AI, 73 trên FlowGPT, và 14 trên các máy chủ cá nhân. Họ cũng phát hiện 11 LLM đang được sử dụng, bao gồm Claude-2-100k, GPT-4, và Pygmalion-13B.

Đánh giá chất lượng đầu ra

Hơn 200 dịch vụ đã được thử nghiệm với hơn 30 lời nhắc để tạo phần mềm độc hại, email lừa đảo, hoặc trang web lừa đảo. Kết quả được đánh giá dựa trên một số tiêu chí:

Định dạng: Đầu ra theo định dạng mong muốn (được xác định bởi các biểu thức chính quy) bao nhiêu lần.
Khả năng biên dịch: Tần suất mã Python, C hoặc C++ tạo ra có thể biên dịch.
Tính hợp lệ: Tần suất HTML và CSS tạo ra chạy thành công trên Chrome và Firefox.
Tính dễ đọc: Mức độ trôi chảy và mạch lạc của email lừa đảo theo chỉ số khó đọc Gunning Fog.
Khả năng né tránh: Tần suất văn bản tạo ra vượt qua tất cả các kiểm tra trước đó và tránh bị phát hiện bởi VirusTotal (đối với phần mềm độc hại và trang web lừa đảo) hoặc OOPSpam (đối với email lừa đảo).

Trong cả ba nhiệm vụ, ít nhất một dịch vụ đạt được tỷ lệ né tránh hơn 67%, nhưng phần lớn các dịch vụ có tỷ lệ né tránh dưới 30%.

Kiểm tra hiệu quả thực tế

Ngoài ra, các nhà nghiên cứu đã tiến hành các thử nghiệm thực tế để đánh giá hiệu quả của mã được tạo ra. Họ đã nhắm mục tiêu cụ thể ba lỗ hổng liên quan đến tràn bộ đệm và SQL injection, nhưng tỷ lệ thành công thấp.

Trong trường hợp của VICIdial (một hệ thống trung tâm cuộc gọi được biết là có lỗ hổng), 22 chương trình được tạo ra có thể biên dịch, nhưng không chương trình nào thành công trong việc thay đổi cơ sở dữ liệu hoặc rò rỉ dữ liệu hệ thống. Tương tự, trên OWASP WebGoat 7.1 (một trang web cung cấp mã với các lỗ hổng bảo mật đã biết), trong số 39 chương trình được tạo ra, chỉ có bảy chương trình thực hiện thành công các cuộc tấn công, nhưng không nhắm vào các lỗ hổng đã yêu cầu.

Ý nghĩa

Các nghiên cứu trước đây cho thấy các dịch vụ dựa trên LLM có thể tạo ra thông tin sai lệch và đầu ra có hại, nhưng ít nghiên cứu đã điều tra việc sử dụng chúng thực tế trong tội phạm mạng. Nghiên cứu này mang tính đột phá trong việc đánh giá chất lượng và hiệu quả của các dịch vụ như vậy. Hơn nữa, các nhà nghiên cứu đã công bố các lời nhắc được sử dụng để vượt qua các rào cản và tạo ra đầu ra độc hại, cung cấp tài nguyên cho các nghiên cứu sâu hơn nhằm giải quyết những vấn đề này trong các mô hình tương lai.

Quan điểm của chúng tôi

Điều đáng mừng là các dịch vụ độc hại không hoạt động tốt trong các thử nghiệm thực tế, và những phát hiện này nên làm giảm bớt những lo ngại về tội phạm mạng liên quan đến AI. Tuy nhiên, điều đó không có nghĩa là chúng ta không nên cảnh giác với các ứng dụng có hại của công nghệ AI. Cộng đồng AI có trách nhiệm thiết kế các sản phẩm an toàn, có lợi và đánh giá kỹ lưỡng chúng về mặt an ninh.

1 bình luận về “Thế giới ngầm tội phạm của AI bị phơi bày”

A WordPress Commenter cho biết:
Hi, this is a comment.
To get started with moderating, editing, and deleting comments, please visit the Comments screen in the dashboard.
Commenter avatars come from Gravatar.

28/08/2024 lúc 2:49 sáng
Trả lời