Bạn có quan tâm đến chúng không ƯU ĐÃI? Tiết kiệm với phiếu giảm giá của chúng tôi trên WHATSAPP o TELEGRAM!

Có một vấn đề lớn đang cản trở việc đào tạo mạng lưới thần kinh

Gianluca Cobucci

2 tháng tư 2024

Trong thế giới năng động củasự thông minh nhân tạo, các công ty công nghệ hàng đầu phải đối mặt với một thách thức bất ngờ có thể làm chậm tốc độ đổi mới: tốc độ đổi mới ngày càng tăng khó khăn trong việc tìm kiếm dữ liệu chất lượng cho việc đào tạo mô hình của họ. Sự thiếu hụt dữ liệu này đang ảnh hưởng đến sự phát triển của các công nghệ tiên tiến như GPT-5, trong khi các công ty tầm cỡ như Microsoft và OpenAI đang tìm kiếm các giải pháp sáng tạo để vượt qua trở ngại này.

Thách thức trong đào tạo AI: Thiếu dữ liệu và điều này làm chậm tiến độ

Trong thời đại được đánh dấu bằng sự gia tăng chưa từng thấy về sức mạnh tính toán và sự tiến bộ của các kỹ thuật học máy, OpenAI và những thứ tương tự của nó đang phải đối mặt với một thách thức lớn. nghịch lý: Lượng dữ liệu trực tuyến dồi dào không tự động chuyển thành tài nguyên có thể sử dụng được cho việc đào tạo AI. Các cần số liệu chính xác, tính phù hợp và cập nhật trở nên quan trọng hơn bao giờ hết, đặc biệt là khi nói đến việc đào tạo các mô hình ngày càng phức tạp như GPT-5 theo kế hoạch.

Quá trình chuyển đổi từ GPT-4 sang GPT-5 minh họa cho sự tăng trưởng theo cấp số nhân về nhu cầu dữ liệu: trong khi GPT-12 “chỉ” yêu cầu XNUMX nghìn tỷ token trước đây thì ước tính cho phiên bản kế nhiệm là khoảng 60-100 nghìn tỷ. Sự khác biệt giữa tính sẵn có và nhu cầu về dữ liệu chất lượng cao nổi lên như một trở ngại đáng kể, khi ước tính sự thiếu hụt có thể dao động từ 10 đến 20 nghìn tỷ token.

Sự thiếu hụt dữ liệu chất lượng này trở thành một nút thắt thực sự cho sự phát triển của AI. Dữ liệu thường lỗi thời hoặc chất lượng thấp được đưa lên web là một vấn đề nghiêm trọng. giới hạn về hiệu quả của học máy. Ngoài ra, các hạn chế do các nền tảng lớn áp đặt đối với việc truy cập dữ liệu chỉ làm trầm trọng thêm vấn đề, hạn chế hơn nữa các nguồn lực sẵn có cho đào tạo. mô hình ngôn ngữ.

Để đối phó với thách thức này, các chiến lược được áp dụng rất đa dạng, từ cải tiến kỹ thuật đến quan hệ đối tác chiến lược. Ví dụ, OpenAI nhằm mục đích nâng caosử dụng dữ liệu âm thanh và video thông qua công cụ nhận dạng giọng nói Whisper, để mở rộng nhóm dữ liệu có sẵn. Song song đó, công ty cũng khám phá khả năng tạo dữ liệu tổng hợp chất lượng có thể phục vụ để lấp đầy khoảng trống hiện có.