Bạn có quan tâm đến chúng không ƯU ĐÃI? Tiết kiệm với phiếu giảm giá của chúng tôi trên WHATSAPP o TELEGRAM!

Meta giới thiệu ImageBind, một mô hình Ai đa cảm biến mới

Gianluca Cobucci

10 May 2023

Điểm đến trong tuần này công bố một mô hình mới của trí tuệ nhân tạo (AI) mở nguồn liên kết nhiều loại dữ liệu bao gồm văn bản, âm thanh, dữ liệu hình ảnh, nhiệt độ và chuyển động. Mô hình này chỉ là một dự án nghiên cứu tại thời điểm này, không có ứng dụng thực tế hoặc tiêu dùng ngay lập tức. Tuy nhiên, nó chỉ ra một tương lai của các hệ thống trí tuệ nhân tạo sáng tạo có khả năng tạo ra trải nghiệm nhập vai và đa giác quan. Tên anh ta là Liên kết hình ảnh meta và chúng tôi giải thích nó hoạt động như thế nào.

Meta giới thiệu ImageBind một mô hình AI đa giác quan mã nguồn mở mới. Đây là cách nó hoạt động và những gì nó có thể làm

Tính mới được gọi là Meta ImageBind và là tính năng đầu tiên kết hợp sáu loại dữ liệu vào một không gian đa chiều duy nhất. Sáu loại dữ liệu có trong mô hình là:

Hình ảnh (ở dạng hình ảnh và video)
Nhiệt (hình ảnh hồng ngoại)
thử
Bài nghe
Thông tin chuyên sâu
Số đọc chuyển động được tạo bởi Đơn vị đo lường quán tính hoặc IMU

Đọc thêm: Meta giới thiệu SAM, AI xác định các yếu tố riêng lẻ trong hình ảnh

Ý tưởng là các hệ thống AI trong tương lai có thể làm tham khảo chéo dữ liệu này giống như cách mà các hệ thống hiện tại thực hiện để nhập văn bản. Ví dụ, hãy tưởng tượng một thiết bị thực tế ảo tương lai không chỉ tạo ra đầu vào âm thanh và hình ảnh mà còn cả môi trường và chuyển động của chúng ta trên một sân khấu vật lý. Người dùng có thể yêu cầu công cụ mô phỏng một chuyến đi biển dài, và sẽ không chỉ đưa anh ta lên một con tàu với tiếng sóng gầm ở phía sau, mà còn cả boong tàu đung đưa dưới chân và làn gió mát của không khí đại dương. Ý tưởng là nền tảng kết hợp các định dạng dữ liệu khác nhau để tạo ra kết quả.

Trong một bài đăng trên blog, Meta lưu ý rằng các luồng đầu vào cảm giác khác có thể được thêm vào cho các mô hình trong tương lai, bao gồm cả “tín hiệu não liên lạc, lời nói, mùi và fMRI“. Tính năng mới được phát hành này vẫn chưa sẵn sàng, vì vậy cộng đồng không thể thử nghiệm tính năng này ở giai đoạn đầu, mặc dù tính năng này đang ở giai đoạn phát triển nâng cao.