Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm

TPO - Microsoft đã phát triển một công cụ tạo giọng nói bằng trí tuệ nhân tạo (AI) vô cùng thuyết phục chỉ sau vài giây.

VALL-E 2 là chương trình tạo văn bản thành giọng nói (TTS) có thể tái tạo giọng nói của người nói chỉ sau vài giây. (Ảnh: Varunyu)

Các nhà nghiên cứu của Microsoft cho biết, VALL-E 2 có khả năng tạo ra giọng nói chính xác, tự nhiên, đủ sức thuyết phục để dễ bị nhầm là giọng nói người thật.

Chất lượng vượt trội

Công cụ AI có khả năng thực hiện điều này nhờ tích hợp hai tính năng chính: "Lấy mẫu có nhận thức về sự lặp lại" và "Mô hình mã hóa theo nhóm".

Repetition Aware Sampling cải thiện cách AI chuyển đổi văn bản thành giọng nói bằng cách giải quyết các lần lặp lại của "token" - các đơn vị ngôn ngữ nhỏ, như từ hoặc các phần của từ - ngăn chặn các vòng lặp vô hạn của âm thanh hoặc cụm từ trong quá trình giải mã. Nói cách khác, tính năng này giúp thay đổi mẫu giọng nói của VALL-E 2, khiến giọng nói nghe trôi chảy và tự nhiên hơn.

Trong khi đó, mô hình mã nhóm cải thiện hiệu quả bằng cách giảm độ dài chuỗi - hoặc số lượng mã thông báo riêng lẻ mà mô hình xử lý trong một chuỗi đầu vào duy nhất. Điều này tăng tốc độ VALL-E 2 tạo ra giọng nói và giúp quản lý những khó khăn với việc xử lý chuỗi âm thanh dài.

Các thí nghiệm được tiến hành trên các tập dữ liệu LibriSpeech và VCTK, đã chỉ ra rằng VALL-E 2 vượt trội hơn các hệ thống TTS zero-shot trước đây về độ mạnh mẽ của giọng nói, độ tự nhiên và độ tương đồng của người nói. Đây là hệ thống đầu tiên đạt được sự ngang bằng với con người trên các chuẩn mực này.

Các nhà nghiên cứu viết trong báo cáo rằng, chất lượng đầu ra của VALL-E 2 phụ thuộc vào độ dài và chất lượng của lời nói cũng như các yếu tố môi trường như tiếng ồn xung quanh.

Mặc dù vậy, Microsoft cho rằng, đây hoàn toàn là một dự án nghiên cứu và sẽ không phát hành VALL-E 2 cho công chúng do nguy cơ sử dụng sai mục đích tiềm ẩn. Điều này trùng hợp với mối lo ngại ngày càng tăng về công nghệ sao chép giọng nói Deepfake. Các công ty AI khác như OpenAI đã đặt ra những hạn chế tương tự đối với công nghệ giọng nói của họ để ngăn chặn việc giả mạo nhận dạng giọng nói hoặc mạo danh một người nào đó.

Tuy nhiên, các nhà nghiên cứu đã gợi ý rằng, công nghệ giọng nói AI có thể thấy được những ứng dụng thực tế trong tương lai. VALL-E 2 có thể tổng hợp giọng nói duy trì được danh tính của người nói và có thể được sử dụng cho mục đích học tập giáo dục, giải trí, báo chí, nội dung tự biên soạn, tính năng trợ năng, hệ thống phản hồi bằng giọng nói tương tác, dịch thuật, chatbot…

Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第2张

Các phi hành gia của NASA bị mắc kẹt trên ISS hi vọng sớm trở về Trái đất 12/07/2024 Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第3张

Có thể dự báo một đợt El Niño mạnh trước nhiều năm 12/07/2024 Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第4张

Mua chất độc xyanua dễ như mua rau: Lỗ hổng kiểm soát 11/07/2024 Hà Thu Theo Live Science Xem nhiều

Thế giới

‘Nhóc’ hà mã lùn Thái Lan bỗng dưng nổi tiếng khắp cõi mạng

Xã hội

Kon Tum tiếp nhận một cá thể trăn đất quý hiếm được người dân giao nộp

Khoa học

Người Scandinavia đã sử dụng thuyền làm bằng da động vật cách đây 5.000 năm?

Khoa học

'Siêu vi khuẩn' sẽ giết chết hàng chục triệu người vào năm 2050

Khoa học

Hoàn toàn bất ngờ về loại gỗ mới được phát hiện

Tin liên quan Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第5张

iPhone có thể tạo giọng nói giống hệt người dùng chỉ trong vòng 15 phút

Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第6张

Công nghệ nhận diện giọng nói đã thay đổi cuộc sống của người Việt như thế nào?

MỚI - NÓNG Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第7张

Xe khách tông xe container trên cao tốc Vĩnh Hảo - Phan Thiết, 1 người chết, 12 người bị thương

Xã hội TPO - Sáng nay, chiếc xe khách Thuận Thảo chạy trên cao tốc Vĩnh Hảo - Phan Thiết theo hướng từ Bắc vào Nam, khi đến Km227+800 đoạn qua xã Hàm Thạnh, huyện Hàm Thuận Nam, tỉnh Bình Thuận đã tông vào đuôi xe container khiến 1 người chết, 12 người bị thương. Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第8张

Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第8张

Vàng SJC bất ngờ tăng mạnh

Kinh tế TPO - Chỉ trong vài tiếng giao dịch buổi sáng, giá vàng miếng SJC tăng mạnh 1,5 triệu đồng/lượng lên mốc 83,5 triệu đồng/lượng. Vàng nhẫn cũng tiến sát mốc 82 triệu đồng/lượng. Máy tạo giọng nói AI giống hệt con người, nhưng quá nguy hiểm 第9张