Bạn có quan tâm đến chúng không ƯU ĐÃI? Tiết kiệm với phiếu giảm giá của chúng tôi trên WHATSAPP o TELEGRAM!

Microsoft VALL-E sẽ bắt chước giọng nói của chúng ta chỉ sau 3 giây nói

Pierpaolo Figuccia

Tháng Một 11 2023

Chỉ trong 3 giây, một AI chưa bao giờ nghe bạn nói có thể bắt chước giọng nói của bạn một cách hoàn hảo. Đây là thành tựu mới nhất của trí tuệ nhân tạo của Microsoft - mô hình chuyển văn bản thành giọng nói VALL-E, có thể sao chép giọng nói của bất kỳ ai theo ý muốn chỉ với 3 giây nói.

Microsoft VALL-E sẽ bắt chước giọng nói của chúng ta chỉ sau 3 giây nói

Nó có nguồn gốc từ DALL E, nhưng chuyên về lĩnh vực âm thanh và hiệu ứng chuyển văn bản thành giọng nói đã trở nên phổ biến sau khi được phát hành trực tuyến.

Một số người dùng nói rằng nếu VALL·E và ChatGPT được kết hợp với nhau, kết quả sẽ rất tuyệt vời. Đối với những người khác, có vẻ như ngày có thể thực hiện các cuộc gọi video bằng AI không còn xa nữa. Thậm chí, có người còn đùa rằng sau khi AI lo xong biên kịch, họa sĩ thì tiếp đến là diễn viên lồng tiếng.

Nhưng làm thế nào để VALL·E bắt chước âm thanh “chưa từng nghe thấy” trong 3 giây?

VALL-E phân tích âm thanh với các mô hình ngôn ngữ. Nó tổng hợp lời nói dựa trên âm thanh “chưa từng nghe thấy” của AI, tức là học lấy mẫu bằng không.

Giải pháp chuyển văn bản thành giọng nói truyền thống về cơ bản là chế độ trước khi tập luyện cùng với tinh chỉnh. Nếu được sử dụng trong kịch bản mẫu bằng không, nó sẽ dẫn đến độ tương đồng và độ tự nhiên kém của lời nói được tạo.

Dựa trên điều này, VALL-E đột nhiên xuất hiện, đề xuất một ý tưởng khác với mô hình giọng hát truyền thống.

So với mô hình truyền thống sử dụng phổ Mel để trích xuất các tính năng, VALL-E trực tiếp nhận tổng hợp giọng nói làm nhiệm vụ của mô hình ngôn ngữ, cái trước là liên tục và cái sau là rời rạc.

Đặc biệt, quá trình tổng hợp giọng nói truyền thống thường là con đường “âm vị → mel-spectrogram (mel-spectrogram) → dạng sóng”.

Nhưng VALL -E đã biến quá trình này thành “âm vị → mã hóa âm thanh rời rạc → dạng sóng”:

Về thiết kế kiểu dáng, VALL-E cũng tương tự như VQVAE. Lượng tử hóa âm thanh thành một loạt các mã thông báo riêng biệt. Bộ lượng tử hóa đầu tiên chịu trách nhiệm nắm bắt nội dung âm thanh và đặc điểm nhận dạng của người nói, trong khi bộ lượng tử hóa thứ hai chịu trách nhiệm sàng lọc tín hiệu. nghe có vẻ tự nhiên hơn:

Sau đó, được điều chỉnh bởi văn bản và lời nhắc âm thanh dài 3 giây, nó tự động xuất ra một mã hóa âm thanh rời rạc:

Nhưng không chỉ có vậy, ngoài tính năng tổng hợp giọng nói zero-sample, VALL-E còn hỗ trợ chỉnh sửa giọng nói và tạo nội dung giọng nói kết hợp với GPT-3.

Âm thanh nền xung quanh cũng có thể được khôi phục

Đánh giá bằng các hiệu ứng giọng hát tổng hợp, VALL-E có thể khôi phục nhiều thứ hơn là chỉ âm sắc của người nói.

Cao độ không chỉ được bắt chước tại chỗ mà còn hỗ trợ nhiều tốc độ nói khác nhau. Ví dụ: đây là hai tốc độ nói khác nhau do VALL-E cung cấp khi cùng một câu được nói hai lần, nhưng độ tương đồng về âm sắc vẫn cao:

Đồng thời, âm thanh xung quanh nền của bên kia cũng có thể được khôi phục chính xác.

Ngoài ra, VALL-E có thể bắt chước nhiều loại cảm xúc của người nói, bao gồm một số loại như tức giận, buồn ngủ, bình thường, vui vẻ và buồn nôn.

Điều đáng nói là tập dữ liệu được sử dụng cho khóa đào tạo VALL·E không đặc biệt lớn.

So với Whisper của OpenAI, yêu cầu 680.000 giờ đào tạo âm thanh và chỉ sử dụng hơn 7.000 người nói và 60.000 giờ đào tạo, VALL-E đã vượt qua tính năng chuyển văn bản thành giọng nói được đào tạo trước về mức độ tương tự với tính năng chuyển văn bản thành giọng nói Model YourTTS.

Hơn nữa, YourTTS đã nghe trước giọng nói của 97 trong số 108 người nói trong quá trình chuyển đổi, nhưng nó vẫn kém VALL-E trong thử nghiệm thực tế.

Đối với các lĩnh vực mà nó có thể được áp dụng:

Nó không chỉ có thể được sử dụng để bắt chước giọng nói của chính bạn, chẳng hạn như giúp người khuyết tật hoàn thành cuộc trò chuyện với người khác mà còn có thể sử dụng nó để nói thay bạn khi bạn không muốn. Tất nhiên, nó cũng có thể được sử dụng để ghi âm sách.

Tuy nhiên, VALL-E chưa phải là mã nguồn mở và bạn có thể phải đợi thêm một thời gian nữa để dùng thử.