Bạn có quan tâm đến chúng không ƯU ĐÃI? Tiết kiệm với phiếu giảm giá của chúng tôi trên WHATSAPP o TELEGRAM!

Bẻ khóa ChatGPT và Bard là có thể và dễ dàng

Gianluca Cobucci

Tháng Mười Hai 29 2023

sự phát triển của mô hình ngôn ngữ có kích thước lớn đã mở ra những chân trời mới trong truyền thông và trí tuệ nhân tạo, nhưng cũng mang theo những thách thức đáng kể và những câu hỏi về đạo đức. Một nghiên cứu gần đây của Đại học Công nghệ Nanyang Singapore nhà thám hiểm một thuật toán mới, khóa chính, được thiết kế để “bẻ khóa” hoặc khắc phục các hạn chế áp đặt lên các mạng thần kinh khác như ChatGPT e Google Thi nhân, đặt ra những câu hỏi quan trọng về an toàn và đạo đức trong việc sử dụng công nghệ trí tuệ nhân tạo.

Cách tiếp cận đơn giản và sáng tạo của Masterkey để nghiên cứu tính bảo mật của các chatbot như ChatGPT và Bard

Trong nghiên cứu gần đây do Đại học Công nghệ Nanyang ở Singapore thực hiện, một cách tiếp cận sáng tạo đã được đưa ra để giải quyết và khắc phục những hạn chế này. Thuật toán của họ, được gọi là Masterkey, được thiết kế để bỏ qua các hạn chế áp đặt trên các mạng thần kinh khác thông qua các kỹ thuật bẻ khóa tinh vi (thuật ngữ được sử dụng trong hệ sinh thái Apple). Điều này không chỉ làm nổi bật những lỗ hổng tiềm ẩn của các mô hình ngôn ngữ hiện có mà còn mở đường cho các phương pháp mới nhằm cải thiện tính bảo mật và hiệu quả của chúng.

Masterkey hoạt động thông qua yêu cầu văn bản cụ thể, điều này có thể thúc đẩy các mô hình như ChatGPT hoạt động theo những cách không mong muốn, chẳng hạn như giao tiếp theo những cách được coi là phi đạo đức hoặc bỏ qua các bộ lọc bảo mật. Những kỹ thuật bẻ khóa này, mặc dù chúng có vẻ thuận lợi cho việc thử nghiệm và củng cố các mô hình, nhưng cũng đại diện cho một con dao hai lưỡi, vì chúng có thể được sử dụng cho mục đích xấu.

Nhóm nghiên cứu anh ấy đã phân tích đặc biệt là các lỗ hổng bảo mật của các mô hình ngôn ngữ khi phải đối mặt với tải nhận thức đa ngôn ngữ, các biểu thức bị che giấu và lý luận nguyên nhân. Những cuộc tấn công này, được định nghĩa là "quá tải nhận thức", đặc biệt nguy hiểm vì chúng không yêu cầu kiến thức chuyên sâu về kiến trúc của mô hình hoặc quyền truy cập vào các trọng số của mô hình để tiến hành, khiến chúng trở thành các cuộc tấn công hộp đen hiệu quả.

Đọc thêm: Cách nhận được phản hồi tốt hơn trên ChatGPT: Phương pháp mẹo tuyệt vời

Cụ thể, nhóm nghiên cứu đã áp dụng chiến lược kỹ thuật đảo ngược để hiểu đầy đủ khả năng phòng thủ của hệ thống trí tuệ nhân tạo và phát triển các phương pháp sáng tạo để vượt qua chúng. Kết quả của phương pháp này là “Masterkey”, một mô hình, một loại khung được thiết kế cho tự động tạo lời nhắc bỏ qua cơ chế bảo mật.

Kết quả rất đáng chú ý: các lời nhắc do Masterkey tạo ra cho thấy tỷ lệ thành công trung bình 21,58%, cao hơn nhiều so với mức 7,33% của phương pháp trước. Một ví dụ về kỹ thuật của họ bao gồm việc thêm thêm khoảng trắng giữa các ký tự để tránh hệ thống phát hiện từ khóa trên ChatGPT và Bard. Một chiến lược thực sự "ngớ ngẩn" nếu chúng ta nghĩ về sự phức tạp của một mô hình ngôn ngữ lớn.

Đối mặt với những phát hiện này, điều quan trọng là phải xem xét không chỉ cách các mô hình ngôn ngữ có thể được cải thiện để chống lại các cuộc tấn công như vậy mà còn cả tầm quan trọng của quy định đạo đức trong việc sử dụng trí tuệ nhân tạo. Nghiên cứu nhấn mạnh tính cấp thiết của các chiến lược phòng thủ mạnh mẽ hơn và đối thoại đang diễn ra giữa các nhà phát triển, nhà nghiên cứu và nhà hoạch định chính sách để đảm bảo rằng tiến bộ công nghệ không vượt quá khả năng của xã hội trong việc quản lý các tác động của nó.