This new AI can mimic human voices with only 3 seconds of training-

Humanity has taken yet another step toward the inevitable war against the machines (which we will lose) with the creation of Vall-E, an AI developed by a team of researchers at Microsoft that can produce high quality human voice replications with only a few seconds of audio training.

Vall-E isn’t the first AI-powered voice tool—xVASynth, for instance, has been kicking around for a couple years now—but it promises to exceed them all in terms of pure capability. In a paper available at Cornell University (via Windows Central), the Vall-E researchers say that most current text-to-speech systems are limited by their reliance on “high-quality clean data” in order to accurately synthesize high-quality speech.

“Large-scale data crawled from the Internet cannot meet the requirement, and always lead to performance degradation,” the paper states. “Because the training data is relatively small, current TTS systems still suffer from poor generalization. Speaker similarity and speech naturalness decline dramatically for unseen speakers in the zero-shot scenario.”

(“Zero-shot scenario” in this case essentially means the ability of the AI to recreate voices without being specifically trained on them.)

Vall-E, on the other hand, is trained with a much larger and more diverse data set: 60,000 hours of English-language speech drawn from more than 7,000 unique speakers, all of it transcribed by speech recognition software. The data being fed to the AI contains “more noisy speech and inaccurate transcriptions” than that used by other text-to-speech systems, but researchers believe the sheer scale of the input, and its diversity, make it much more flexible, adaptable, and—this is the big one—natural than its predecessors.

“Experiment results show that Vall-E significantly outperforms the state-of-the-art zero-shot TTS system in terms of speech naturalness and speaker similarity,” states the paper, which is filled with numbers, equations, diagrams, and other such complexities. “In addition, we find VALL-E could preserve the speaker’s emotion and acoustic environment of the acoustic prompt in synthesis.”

You can actually hear Vall-E in action on Github, where the research team has shared a brief breakdown of how it all works, along with dozens of samples of inputs and outputs. The quality varies: Some of the voices are notably robotic, while others sound quite human. But as a sort of first-pass tech demo, it’s impressive. Imagine where this technology will be in a year, or two or five, as systems improve and the voice training dataset expands even further.

Which is of course why it’s a problem. Dall-E, the AI art generator, is facing pushback over privacy and ownership concerns, and the ChatGPT bot is convincing enough that it was recently banned by the New York City Department of Education. Vall-E has the potential to be even more worrying because of the possible use in scam marketing calls or to reinforce deepfake videos. That may sound a bit hand-wringy but as our executive editor Tyler Wilde said at the start of the year, this stuff isn’t going away, and it’s vital that we recognize the issues and regulate the creation and use of AI systems before potential problems turn into real (and real big) ones.

The Vall-E research team addressed those “broader impacts” in the conclusion of its paper. “Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker,” the team wrote. “To mitigate such risks, it is possible to build a detection model to discriminate whether an audio clip was synthesized by VALL-E. We will also put Microsoft AI Principles into practice when further developing the models.”

In case you need further evidence that on-the-fly voice mimicry leads to bad places:

Related Posts

เชสนี่เปิดตัวบาร์ซ่าเซ็นเฝ้าเสาจนจบซีซั่น

เว็บไซต์ของสโมสร บาร์เซโลน่า ประกาศยืนยันการเซ็นสัญญากับ เชสนี่ ผู้รักษาประตูชาวโปแลนด์ อย่างเป็นทางการ เป็นสัญญาระยะสั้นจนถึงวันที่ 30 มิถุนายน ปี 2025 หรือจนจบฤดูกาลนี้ เชสนี่ หมดสัญญากับ ยูเวนตุส สิ้นเดือนมิถุนายนที่ผ่านมา และตัดสินใจเลิกเล่นฟุตบอลอาชีพในเวลาต่อมา จนกระทั่ง บาร์เซโลน่า เสีย แทร์ ชเตเก้น ผู้รักษาประตูมือหนึ่งที่บาดเจ็บพักยาวตลอดทั้งฤดูกาลนี้ จึงโน้มน้าวใจและมอบข้อเสนอให้อดีตผู้รักษาประตู อาร์เซน่อล คำพูดจาก สล็อตเว็บตรง ฮันซี่…

เนเบอร์สแฮปปี้ผลงานล่าสุดของตนเองกับไจแอนท์ส

แมลิค เนเบอร์ส ปีกนอกรุคกี้ดราฟท์อันดับ 6 ของ นิวยอร์ค ไจแอนท์ส มีความสุขกับผลงานเกมล่าสุดที่เล่นได้อย่างยอดเยี่ยมทำ 2 ทัชดาวน์นำยักษ์น้ำเงินบุกเชือด คลีฟแลนด์ บราวน์ส 21-15 คว้าชัยชนะครั้งแรกในซีซั่นนี้สำเร็จ ตามรายงานจาก นิวยอร์ค โพสต์ เนเบอร์ส รับบอล 8 ครั้ง ระยะ 78 หลา ทำ 2 ทัชดาวน์ช่วย…

เป๊ปธงขาวซีซั่นนี้โรดรี้ปิดฉาก,"เคดีบี"ยังเดี้ยง

มิดฟิลด์วัย 28 ปีอุตส่าห์เป็นชื่อลุ้นบัลลง ดอร์ 2024 เมื่อคว้าแชมป์พรีเมียร์ลีก อังกฤษ กับ ‘เรือใบสีฟ้า’ และมีบทบาทเด่นให้ทีมชาติสเปนชุดแชมป์ ยูโร 2024 อย่างไรก็ตามเจ้าตัวโชคร้ายเดี้ยงจากเกมเสมอ อาร์เซน่อล 2-2 เมื่อสัปดาห์ก่อน โดยหลังเข้ารับการประเมินเพื่อความเห็นจากแพทย์เฉพาะทางท่านที่ 1 และท่านที่ 2 ต่างลงความเห็นตรงกันว่าต้องผ่าตัดรักษาเท่านั้น กรอบเวลาฟื้นตัวสำหรับกลับมาทำกิจกรรมฟุตบอลอีกครั้งไม่ต่ำกว่า 10 เดือน “เขาเข้ารับการผ่าตัดเมื่อเช้าวันศุกร์ที่ ‘เอซีแอล’ และหมอนรองเข่าบางส่วน…

ไรส์มุ่งมั่นพัลเมรัสแม้มีข่าวเรือ-ราชันสนใจ

เจ้าหนูวัย 18 ปีถูกคาดหมายว่าจะก้าวขึ้นมาเป็นสตาร์คนดังในอนาคตหลังก้าวขึ้นมาแจ้งเกิดกับต้นสังกัด โดยมีรายงานว่าสองยักษ์ของยุโรปทั้ง “ราชันชุดขาว” และ “เรือใบ” จับตาแข้งรายนี้อย่างใกล้ชิดคำพูดจาก สล็อตเว็บตรง อย่างไรก็ตาม ไรส์ ที่เล่นในตำแหน่งกองหลังกล่าวว่าตอนนี้ตนเองสนใจแค่เรื่องการสร้างผลงานที่ดีกับสโมสรที่กำลังแย่งแชมป์ บราซิล เซเรีย อา เท่านั้น ปัจจุบันทีมรั้งอันดับ 2 ของตารางด้วยการมี 53 คะแนนจาก 27 เกม ตามหลัง โบตาโฟโก้ จ่าฝูงอยู่ 3…

โจนส์รับแค่เตะฟิลด์โกลไม่เพียงพอชนะเกม

แดเนียล โจนส์ ควอร์เตอร์แบ็ก นิวยอร์ค ไจแอนท์ส ยอมรับว่าการทำได้แค่เตะฟิลด์โกลเข้าทั้ง 5 ครั้งยังไม่เพียงพอต่อการชนะเกม หลังการปราชัยต่อ ดัลลาส คาวบอยส์ 15-20 เมื่อวันพฤหัสฯที่ผ่านมา ตามรายงานจากเอ็นเอฟแอลเน็ตเวิร์ค เกร็ก โจเซฟ ตัวเตะ ไจแอนท์ส จัดการฟิลด์โกลเข้าอย่างต่อเนื่องตลอดการครองบอล 4 ครั้งแรก แต่ทีมยักษ์น้ำเงินไม่สามารถทำทัชดาวน์ได้จากการเข้าถึงเร้ดโซน 2 ครั้ง และอีกหนึ่งครั้งจากสถานการณ์ที่ต้องทะยานเข้าเอนด์โซน 'มันน่าหงุดหงิดมาก' โจนส์…

เอร์เรร่าประณามแฟนโรม่าขว้างพลุไฟ

อันเดร์ เอร์เรร่า มิดฟิลด์ แอธเลติก บิลเบส กล่าวประณามแฟนบอล โรม่า บางคนที่ขว้างพลุไฟมาที่พวกเขาหลังจบเกมยูโรปาลีกเมื่อวันพฤหัสฯที่ผ่านมา ตามรายงานจาก กาเดน่า โกเป้ คำพูดจาก สล็อตเว็บตรง เอร์เรร่า มิดฟิลด์วัย 35 ปีที่ลงเล่นฐานะสำรองช่วงนาที 60 กล่าวด้วยความหงุดหงิดต่อพฤติกรรมของแฟนบอลทีมหมาป่ากรุงโรมหลังเกมยูโรปาลีกเมื่อวันพฤหัสฯ ขณะที่สโมสร แอธเลติก บิลเบา แถลงการณ์ประณามการกระทำดังกล่าวเช่นเดียวกัน 'เรารู้สึกแปลกๆ เพราะเราเล่นเกมที่ดี แต่ทุกอย่างมัวหมองลงเพราะสิ่งที่เราเห็น ผมเข้าใจในช่วงเวลาที่ตึงเครียด…