
OpenAI đã công bố bản phát hành alpha của Chế độ giọng nói nâng cao của ChatGPT, được hỗ trợ bởimẫu GPT-4o cải tiến. Tính năng mang tính cách mạng này hứa hẹn mang lại phản hồi âm thanh siêu thực, ban đầu sẽ có thể truy cập được đối với một nhóm nhỏ người dùng ChatGPT Plus bắt đầu từ hôm nay, với mục đích mở rộng tính khả dụng cho tất cả người đăng ký Plus vào mùa thu năm 2024.
Chế độ giọng nói: Chế độ giọng nói của ChatGPT là chính thức
Buổi giới thiệu chế độ giọng nói với GPT-4o diễn ra vào tháng XNUMX đã gây được sự quan tâm và ngưỡng mộ lớn của công chúng nhờ tính năng của nó. tốc độ thế hệ phi thường và sự giống giọng người thật một cách nổi bật, khiến người ta so sánh với giọng của nữ diễn viên nổi tiếng Scarlett Johansson.
OpenAI phủ nhận việc sử dụng giọng nói của nữ diễn viên, sau đó loại bỏ giọng nói đó khỏi bản demo và thông báo vào tháng 6. hoãn phát hành chế độ giọng nói nâng cao để cải thiện các biện pháp an ninh.
Trong giai đoạn alpha này, một số tính năng hiển thị trong bản cập nhật mùa xuân, chẳng hạn như chia sẻ video và màn hình, sẽ không được đưa vào và sẽ được giới thiệu sau. Tuy nhiên, một nhóm người dùng cao cấp được chọn sẽ có quyền truy cập vào tính năng giọng nói ChatGPT được trình bày trong bản demo.
Đọc thêm: SearchGPT: công cụ tìm kiếm OpenAI là gì và nó hoạt động như thế nào
Chế độ Giọng nói nâng cao khác với giải pháp âm thanh hiện được ChatGPT cung cấp, dựa trên ba mô hình riêng biệt. GPT-4o, nhờ có anh ấy thiên nhiên đa phương thức, có thể xử lý các tác vụ này mà không cần dùng đến các mô hình phụ trợ, tạo ra phản hồi bằng giọng nói bằng một mô hình Độ trễ giảm đáng kể. Ngoài ra, OpenAI nêu bật khả năng của GPT-4o trong cảm nhận sắc thái cảm xúc trong giọng nói, chẳng hạn như nỗi buồn và sự phấn khích, và nhận biết tiếng hát.
Để đảm bảo giám sát cẩn thận việc sử dụng giọng nói của ChatGPT, OpenAI đã chọn phát hành dần dần. Các thành viên của chương trình Alpha sẽ nhận được thông báo trong ứng dụng ChatGPT, sau đó là email chứa hướng dẫn sử dụng tính năng này.
Khả năng phát âm của GPT-4o họ đã được thử nghiệm bằng 45 ngôn ngữ, thể hiện cam kết của OpenAI trong việc làm cho công nghệ này có thể tiếp cận được với nhiều đối tượng quốc tế. Ngoài ra, công ty đã triển khai các bộ lọc mới cho ngăn chặn yêu cầu tạo nhạc hoặc tài liệu âm thanh khác được bảo vệ bản quyền, do đó bảo vệ quyền sở hữu trí tuệ.
Chế độ giọng nói nâng cao của ChatGPT ban đầu sẽ bị giới hạn ở bốn giọng nói cài sẵn bởi ChatGPT: Juniper, Breeze, Cove và Ember, được tạo ra với sự cộng tác của các diễn viên lồng tiếng chuyên nghiệp. ChatGPT sẽ không có khả năng bắt chước giọng nói của người khác và sẽ chặn mọi đầu ra khác với những giọng nói mặc định này, do đó đảm bảo việc sử dụng công nghệ có đạo đức và có trách nhiệm.