Các nhà nghiên cứu tại phòng thí nghiệm nghiên cứu Google Deepmind họ đã cố gắng ép buộc ChatGPT tiết lộ dữ liệu cá nhân của một số người dùng. Họ không cần phải sửa đổi mã hoặc các thủ thuật kỹ thuật khác. Hơn nữa, các chuyên gia thậm chí còn xác định phương pháp được phát hiện”hơi ngốc", mặc dù hóa ra nó rất hiệu quả. Họ thực sự đã phát hiện ra lỗ hổng ChatGPT này bằng cách tạo ra ảo giác về mô hình ngôn ngữ theo một cách khá tò mò.
Lỗ hổng ChatGPT cung cấp dữ liệu cá nhân của người dùng dưới dạng “thôi miên”
Mô hình ngôn ngữ tạo ra thông tin dựa trên dữ liệu đầu vào được sử dụng để huấn luyện nó. OpenAI không tiết lộ nội dung của bộ dữ liệu, nhưng các nhà nghiên cứu đã buộc ChatGPT phải làm như vậy, phớt lờ các quy tắc của công ty. Phương pháp này như sau: nó chỉ đơn giản đến mạng lưới thần kinh được yêu cầu lặp đi lặp lại từ “thơ”.
Kết quả là bot thỉnh thoảng tạo ra thông tin từ tập dữ liệu huấn luyện của nó. Ví dụ, các nhà nghiên cứu đã thành công lấy địa chỉ email, số điện thoại và các liên hệ khác của Giám đốc điều hành của một công ty cụ thể (tên của ông ấy bị ẩn trong báo cáo). Và khi AI được yêu cầu lặp lại từ “công ty”, lỗ hổng ChatGPT đã cho phép nó trả về thông tin chi tiết về một công ty luật của Hoa Kỳ.
Bằng cách sử dụng phương pháp “thôi miên” đơn giản này, các nhà nghiên cứu đã có thể tìm được đối tượng phù hợp từ các trang web hẹn hò, các đoạn thơ, indrizzi Bitcoin, sinh nhật, các link đăng trên mạng xã hội, mảnh giấy nghiên cứu có bản quyền và thậm chí cả văn bản từ các cổng tin tức lớn. Sau khi chỉ chi 200 USD cho token, nhân viên của Google DeepMind đã nhận được khoảng 10.000 đoạn dữ liệu.
Các chuyên gia cũng nhận thấy rằng mô hình càng lớn thì càng tạo ra nguồn tập dữ liệu huấn luyện thường xuyên hơn. Để làm được điều này, họ đã xem xét các mẫu xe khác và ngoại suy kết quả về kích thước của GPT-3.5 Turbo. Các nhà khoa học dự kiến sẽ nhận được lượng thông tin nhiều hơn gấp 50 lần từ tập dữ liệu huấn luyện, nhưng chatbot tạo ra dữ liệu này thường xuyên hơn 150 lần. Một “lỗ hổng” tương tự đã được phát hiện trong các mô hình ngôn ngữ khác, ví dụ như trong LLaMA của Meta.
Chính thức, OpenAI đã vá lỗ hổng này vào ngày 30 tháng XNUMX. Nhưng, theo nhà báo từ Engadget, bạn vẫn lấy được dữ liệu của người khác (tên Skype và thông tin đăng nhập) bằng phương pháp được mô tả ở trên. Các đại diện của OpenAI không phản hồi về việc phát hiện ra lỗ hổng ChatGPT này nhưng chúng tôi chắc chắn rằng họ sẽ làm như vậy.