Bạn có quan tâm đến chúng không ƯU ĐÃI? Tiết kiệm với phiếu giảm giá của chúng tôi trên WHATSAPP o TELEGRAM!

ChatGPT hiện là trợ lý có thể nhìn, nghe và nói

Gianluca Cobucci

25 Tháng Chín 2023

chatgpt chấp nhận đầu vào bằng giọng nói và hình ảnh

ChatGPT, do OpenAI phát triển, đang giới thiệu các khả năng mới cho phép bạn tương tác thông qua giọng nói và hình ảnh, cung cấp giao diện trực quan và nhiều cách khác để tích hợp ChatGPT vào cuộc sống hàng ngày của bạn. Trong một thông báo gần đây trên trang web của mình, OpenAI đã quyết định tiết lộ trước những tính năng mới này. Tương tự như vậy, ông cũng nhấn mạnh những lợi ích mà chúng mang lại cũng như những thách thức mà chúng mang lại trong thị trường AI đang phát triển.

Chủ đề của bài viết này:

ChatGPT: tương tác bằng giọng nói

Với chức năng giọng nói mới, người dùng có thể có hội thoại tương tác với ChatGPT. Điều này cho phép bạn sử dụng trợ lý ngay cả khi đang di chuyển, tăng tiềm năng của chatbot. Ví dụ: người dùng có thể yêu cầu ChatGPT kể câu chuyện của trẻ em khi đang di chuyển, điều này khiến câu chuyện trở nên thú vị hơn.

Một câu chuyện được tạo bởi chatbot

Hoặc, trong bữa tối với bạn bè, một cuộc tranh luận về một chủ đề cụ thể có thể nảy sinh; trong trường hợp này, người dùng có thể sử dụng bot để có được thông tin chính xác và giải quyết cuộc tranh luận một cách mang tính xây dựng.

Công nghệ giọng nói của ChatGPT sử dụng mô hình chuyển văn bản thành giọng nói nâng cao. Với sự cộng tác của các diễn viên lồng tiếng chuyên nghiệp, mô hình này có thể tạo ra âm thanh hình người từ các mẫu văn bản và giọng nói ngắn, giúp việc tương tác với ChatGPT trở nên tự nhiên và trực quan hơn. Ngoài ra, nhờ Thì thầm, một hệ thống nhận dạng giọng nói nguồn mở được phát triển bởi OpenAI, các từ được nói là được chuyển thành văn bản với độ chính xác cao, cho phép chatbot hiểu và phản hồi hiệu quả các yêu cầu của người dùng.

ChatGPT: tương tác trực quan

Như trên, mô hình AI giờ đây có thể phân tích một hoặc nhiều hình ảnh, cho phép người dùng giải quyết vấn đề, lên kế hoạch cho bữa ăn hoặc phân tích các biểu đồ phức tạp. Ví dụ: người dùng có thể gửi ảnh chụp đồ đạc trong tủ lạnh của họ. Do đó, chatbot nên được sử dụng phân tích các loại thực phẩm hiện có và đề xuất công thức nấu ăn dựa trên những thành phần này, cũng cung cấp hướng dẫn từng bước để chuẩn bị.

Đọc thêm: GPT-4: Gemini sẽ là đối thủ của Google Dưới đây là những khác biệt

Hơn nữa, nếu người dùng cần tập trung vào một yếu tố cụ thể trong hình ảnh, Ứng dụng di động của ChatGPT bao gồm một công cụ vẽ cho phép bạn làm nổi bật các khu vực cụ thể của hình ảnh, giúp việc giao tiếp và phân tích trở nên chính xác và được cá nhân hóa hơn nữa.

Khả năng hiểu hình ảnh được hỗ trợ bởi các mô hình đa phương thức GPT-3.5 và GPT-4. Những mô hình tiên tiến này họ áp dụng các kỹ năng ngôn ngữ của mình vào nhiều loại hình ảnh, chẳng hạn như ảnh chụp, ảnh chụp màn hình và tài liệu chứa cả văn bản và hình ảnh, cho phép ChatGPT hiểu và diễn giải bối cảnh trực quan một cách chính xác và chi tiết.

Điều đáng nói là từ poco OpenAI đã tích hợp không chỉ vậy Canva mà còn DALL-E 3 trong ChatGPThoặc mô hình hình ảnh tổng quát.

Nó sẽ có sẵn khi nào và cho ai

Trong hai tuần tới OpenAI sẽ triển khai giọng nói và hình ảnh trong ChatGPT cho người dùng người dùng có đăng ký Plus và Enterprise.

Chức năng cho phép tương tác bằng giọng nói sẽ có sẵn trên iOS và Android nhưng không có trên phiên bản web, phiên bản được hầu hết mọi người sử dụng.

Chức năng cho phép tương tác trực quan sẽ có sẵn thay thế trên tất cả các nền tảng, do đó Android, iOS và web.

Nguồn | OpenAI