AI โคลนเสียงได้ใน 3 วินาที ทำยังไง?

AI Dev Thai
AI Dev Thaiรีวิว AI · สอน Coding · หาเงินจาก Tech

AI โคลนเสียงได้ใน 3 วินาที ทำยังไง? ไขความลับเบื้องหลังเทคโนโลยีเสียง

AI โคลนเสียงได้ใน 3 วินาที ทำยังไง? ไขความลับเบื้องหลังเทคโนโลยีเสียง

ทุกวันนี้มนุษย์เราแยกไม่ออกว่าเสียงที่ได้ยินเป็นเสียงจริงหรือเสียง AI มากขึ้นเรื่อยๆ ถึงขนาดที่ว่า Humans now fail voice tests 25% of time ไม่น่าเชื่อใช่ไหมครับว่าเทคโนโลยี AI ได้พัฒนามาไกลขนาดนี้ โดยเฉพาะอย่างยิ่งการ “โคลนเสียง” หรือ “สังเคราะห์เสียง” ที่ทำได้ง่ายและรวดเร็วอย่างไม่น่าเชื่อ วันนี้ AiDevThai จะพาคุณไปเจาะลึกว่า AI สามารถโคลนเสียงได้ภายในเวลาเพียง 3 วินาทีได้อย่างไร และเทคโนโลยีเบื้องหลังมันทำงานอย่างไรบ้าง

Key Facts ที่คนส่วนใหญ่ไม่รู้

  • ElevenLabs’ AI ในปี 2023 ทำคะแนน Mean Opinion Score ได้ถึง 0.83 ซึ่งเทียบเท่ากับเกณฑ์คุณภาพเสียงของมนุษย์ที่ 0.80 ที่อุตสาหกรรมโทรคมนาคมใช้มาตั้งแต่ปี 1996
  • VALL-E ของ Microsoft ต้องการตัวอย่างเสียงเพียง 3 วินาทีเพื่อโคลนเสียงใครก็ได้ โดยใช้ชุดข้อมูล LibriLight 60,000 ชั่วโมงพร้อมรหัสตัวแปลงสัญญาณแบบไม่ต่อเนื่อง (discrete codec codes)
  • Tacotron 2 สร้าง mel-spectrograms ที่ช่วงเวลา 12.5 มิลลิวินาที จากนั้น WaveNet จะขยายสัญญาณเป็น 24kHz โดยใช้เลเยอร์คอนโวลูชันแบบขยาย 30 ชั้น พร้อมช่องสัญญาณ residual 512 ช่อง

AI โคลนเสียงคืออะไร?

AI โคลนเสียง หรือ Voice Cloning AI คือเทคโนโลยีที่สามารถเรียนรู้ลักษณะเฉพาะของเสียงต้นฉบับ ไม่ว่าจะเป็นโทนเสียง สำเนียง จังหวะการพูด และนำมาสังเคราะห์เป็นเสียงใหม่ที่เลียนแบบเสียงต้นฉบับนั้นได้ พูดง่ายๆ คือ เราให้ AI ฟังเสียงพูดของคนๆ หนึ่งเพียงไม่กี่วินาที แล้ว AI ก็จะสามารถสร้างเสียงพูดใหม่ๆ ด้วย “เสียงเดียวกัน” กับคนนั้นได้ทันที เสมือนว่ามีคนนั้นมาพูดให้เราฟังเองเลยทีเดียว

เทคโนโลยีนี้แตกต่างจากการสังเคราะห์เสียงแบบ Text-to-Speech (TTS) ทั่วไปเล็กน้อย TTS ส่วนใหญ่จะใช้เสียงที่ถูกสร้างไว้ล่วงหน้า (pre-recorded voices) หรือเสียงสังเคราะห์มาตรฐาน แต่การโคลนเสียงคือการสร้างเสียงใหม่ที่มีเอกลักษณ์เฉพาะตัวของคุณ หรือของใครก็ได้ที่คุณให้ตัวอย่างเสียงไป

AI โคลนเสียงทำงานอย่างไร? (เจาะลึกเบื้องหลัง)

เบื้องหลังความมหัศจรรย์ของการโคลนเสียงในเวลาอันสั้นนี้ ไม่ได้เป็นเพียงแค่การบันทึกเสียงและเล่นซ้ำ แต่เป็นการทำงานร่วมกันของโมเดล AI ที่ซับซ้อนหลายส่วน โดยเฉพาะอย่างยิ่งเทคนิคที่เรียกว่า “Text-to-Speech (TTS) แบบ End-to-End” ที่พัฒนาไปมาก ลองนึกภาพขั้นตอนที่เกิดขึ้นในระบบ AI ที่ทันสมัยอย่างเช่นที่ใช้ใน ElevenLabs:

  1. Step 1: Text encoder แปลงข้อความให้เป็น “รหัสเสียง”

    ขั้นแรก AI จะรับข้อความที่เราต้องการให้พูด (เช่น “สวัสดีครับ ยินดีต้อนรับสู่ AiDevThai”) แล้ว Text encoder ซึ่งเป็นส่วนหนึ่งของระบบ จะทำหน้าที่แปลงตัวอักษรเหล่านี้ให้กลายเป็นเวกเตอร์ฝังตัว (embedding vectors) ขนาด 512 มิติ โดยอาศัยการเรียนรู้ความสัมพันธ์ระหว่างตัวอักษรกับหน่วยเสียง (character-to-phoneme mappings) เพื่อให้ AI เข้าใจว่าคำแต่ละคำออกเสียงอย่างไร

  2. Step 2: Attention mechanism จับคู่ข้อความกับจังหวะเสียง

    หลังจากนั้น กลไกที่เรียกว่า “Attention mechanism” จะเข้ามามีบทบาท สำคัญมากคือ Attention mechanism aligns encoder outputs with decoder timesteps using location-sensitive attention with 32 filters across 31 kernel width หน้าที่ของมันคือการสร้างการเชื่อมโยงระหว่าง “รหัสเสียง” ที่ได้มาจาก Text encoder กับ “จังหวะเวลา” ที่ควรจะออกเสียงในส่วนต่างๆ ของประโยค เพื่อให้เสียงพูดที่ออกมามีจังหวะและทำนองที่ถูกต้อง เป็นธรรมชาติ

  3. Step 3: Decoder LSTM สร้างภาพความถี่เสียง (Mel-spectrogram)

    ในขั้นตอนนี้ Decoder LSTM (Long Short-Term Memory) ซึ่งมีหน่วยความจำซับซ้อนถึง 1024 หน่วย จะเริ่มทำงาน โดยคาดการณ์เฟรมของ Mel-spectrogram ซึ่งเป็นตัวแทนของภาพความถี่เสียงที่มนุษย์ได้ยิน ในลักษณะอัตโนมัติ (autoregressively) โดยจะสร้างเฟรมออกมาทีละเฟรม Tacotron 2 generates mel-spectrograms at 12.5ms frame intervals ซึ่งหมายความว่ามันสร้างรายละเอียดเสียงในทุกๆ 12.5 มิลลิวินาที ทำให้ได้เสียงที่มีความละเอียดสูงและเป็นธรรมชาติ

  4. Step 4: Post-net ปรับปรุงคุณภาพ Mel-spectrogram

    เพื่อทำให้ Mel-spectrogram ที่สร้างขึ้นมานั้นสมบูรณ์แบบยิ่งขึ้น ส่วนที่เรียกว่า Post-net จะเข้ามาช่วย โดยใช้เลเยอร์คอนโวลูชัน 5 ชั้น พร้อมกับการทำ Batch Normalization เพื่อปรับปรุงและลดสิ่งแปลกปลอมในภาพความถี่เสียง ทำให้มั่นใจได้ว่าข้อมูลเสียงที่จะนำไปสร้างคลื่นเสียงจริงนั้นมีคุณภาพสูงสุด

  5. Step 5: Neural vocoder เตรียมข้อมูลคลื่นเสียง

    เมื่อได้ Mel-spectrogram ที่สมบูรณ์แล้ว Neural vocoder ซึ่งเป็นส่วนสำคัญในการแปลงภาพความถี่เสียงให้เป็นคลื่นเสียงจริง จะเริ่มแบ่ง Mel-spectrogram ออกเป็นช่วงๆ (overlapping windows) ขนาด 50 มิลลิวินาที โดยมีระยะการก้าว (hop length) เพียง 12.5 มิลลิวินาที การแบ่งแบบนี้ช่วยให้การสังเคราะห์คลื่นเสียงมีความต่อเนื่องและราบรื่น

  6. Step 6: WaveNet ประมวลผลคลื่นเสียง

    นี่คือหัวใจสำคัญของการสร้างเสียงที่สมจริง! WaveNet processes each window through 30 gated activation layers with exponentially increasing dilation rates from 1 to 512 กล่าวคือ WaveNet จะประมวลผลข้อมูลเสียงแต่ละส่วนผ่านเลเยอร์การเปิดใช้งานแบบเกท (gated activation layers) ถึง 30 เลเยอร์ โดยใช้เทคนิคที่เรียกว่า “Dilated Convolution” ที่มีอัตราการขยาย (dilation rates) เพิ่มขึ้นแบบทวีคูณตั้งแต่ 1 ไปจนถึง 512 ทำให้โมเดลสามารถมองเห็นความสัมพันธ์ของเสียงในระยะยาวและระยะสั้นได้พร้อมกัน

  7. Step 7: รวมสัญญาณเพื่อสร้างความสมบูรณ์

    แต่ละเลเยอร์ของ Dilated Convolution จะสร้างช่องสัญญาณ 256 ช่องสำหรับ “residual” และอีก 256 ช่องสำหรับ “skip” ซึ่งทั้งหมดนี้จะถูกรวมเข้าด้วยกันในตอนท้าย เพื่อสร้างคลื่นเสียงที่มีความซับซ้อนและสมบูรณ์แบบที่สุด

  8. Step 8: สร้างคลื่นเสียงจริงด้วย Softmax

    สุดท้าย Convolution 1×1 ในขั้นตอนสุดท้าย พร้อมกับฟังก์ชัน Softmax จะสร้างค่าแอมพลิจูดที่ถูก quantization ด้วย mu-law 256 ค่า ออกมาด้วยอัตรา 24,000 ตัวอย่างต่อวินาที ซึ่งแปลเป็นคลื่นเสียงที่คุณได้ยินนี่เอง

ทั้งหมดนี้เกิดขึ้นได้ในชั่วพริบตา เมื่อมีตัวอย่างเสียงเพียง 3 วินาที AI จะใช้เสียงนั้นเป็น “แม่แบบ” เพื่อเรียนรู้ลักษณะสำคัญของเสียง เช่น Timbre (ลักษณะเฉพาะของเสียง), Pitch (ระดับเสียงสูงต่ำ), และ Energy (ความหนักเบาของเสียง) ข้อมูลเหล่านี้จะถูกนำไปปรับใช้กับกระบวนการข้างต้น ทำให้ข้อความใดๆ ที่เข้ามาถูกเปลี่ยนเป็นเสียงที่เหมือนกับเสียงตัวอย่างของคุณได้อย่างน่าทึ่ง

ใน 2024 University of Waterloo ศึกษาพบว่า ผู้ฟังสามารถระบุเสียง AI ได้ถูกต้องเพียง 73% ของเวลาทั้งหมด เมื่อตัวอย่างเสียงมีความยาวเกิน 5 วินาที

ตัวอย่างการใช้งานในชีวิตจริง

การโคลนเสียง AI ไม่ได้เป็นเพียงเทคโนโลยีในห้องทดลองอีกต่อไป แต่ได้ถูกนำมาประยุกต์ใช้ในหลากหลายอุตสาหกรรมแล้ว:

  • พอดแคสต์และ Audiobook: นักพอดแคสต์สามารถโคลนเสียงของตัวเองเพื่อสร้างเนื้อหาเพิ่มเติมได้รวดเร็วขึ้น หรือนักพากย์สามารถสร้างเสียงตัวละครต่างๆ ได้โดยไม่ต้องบันทึกเสียงซ้ำๆ บ่อยๆ
  • ผู้ช่วยส่วนตัวและ Chatbot: การมีผู้ช่วย AI ที่พูดด้วยเสียงที่คุ้นเคย หรือแม้แต่เสียงของคุณเอง จะทำให้ประสบการณ์การใช้งานเป็นส่วนตัวมากขึ้น ลองนึกถึง Chatbot ไทย ที่ตอบโต้ด้วยเสียงของคุณเองสิ!
  • การสร้างเนื้อหาสำหรับ YouTube หรือสื่อโซเชียล: นักสร้างสรรค์เนื้อหาสามารถประหยัดเวลาในการพากย์เสียงวิดีโอ หรือใช้เสียงสังเคราะห์ที่มีคุณภาพสูงเพื่อสร้างเนื้อหาที่น่าสนใจ
  • การเข้าถึงสำหรับผู้พิการ: ผู้ที่มีปัญหาด้านการพูดสามารถใช้เทคโนโลยีนี้เพื่อสร้างเสียงของตัวเองในการสื่อสารกับผู้อื่นได้
  • การแพทย์: ช่วยให้ผู้ป่วยที่สูญเสียเสียงสามารถกลับมา “พูด” ด้วยเสียงของตัวเองได้อีกครั้ง ผ่านการโคลนเสียงก่อนที่จะเกิดการสูญเสีย
  • อวาตาร์และเมตาเวิร์ส: สร้างเสียงให้กับตัวละครหรืออวาตาร์ที่ดูสมจริงและมีชีวิตชีวามากยิ่งขึ้น
  • การสร้างเพลงและการแต่งเพลง: AI สามารถสร้างเสียงร้องเลียนแบบศิลปินหรือสร้างเสียงประกอบเพลงได้ ดูตัวอย่างได้จาก Suno AI หรือ Udio

ทำไม AI โคลนเสียงถึงสำคัญและน่าจับตามอง?

ความสามารถในการโคลนเสียงเป็นก้าวสำคัญของ AI ที่ทำให้เราเข้าใกล้การสร้างปัญญาประดิษฐ์ที่สื่อสารกับมนุษย์ได้อย่างเป็นธรรมชาติมากยิ่งขึ้น ไม่ใช่แค่เรื่องของความสมจริง แต่ยังรวมถึงความเข้าถึงง่าย (Accessibility) และประสิทธิภาพ (Efficiency)

ในอดีต การสังเคราะห์เสียงคุณภาพสูงใช้เวลานานและต้องใช้ข้อมูลจำนวนมาก แต่ตอนนี้ VALL-E by Microsoft requires only 3 seconds of voice sample to clone anyone, using 60,000 hours of LibriLight dataset with discrete codec codes นี่แสดงให้เห็นถึงศักยภาพมหาศาลในการสร้างสรรค์ การเรียนรู้ และการสื่อสารที่ไม่เคยมีมาก่อน

อีกจุดที่น่าสนใจคือ การหายใจ Breathing artifacts occur every 2-4 seconds in human speech but AI models before 2023 inserted breaths randomly every 8-15 seconds, creating detection pattern. แต่ตอนนี้ AI สามารถจำลองการหายใจให้สมจริงและเป็นธรรมชาติมากขึ้น ทำให้เสียงที่สังเคราะห์ออกมายากที่จะแยกออกจากการพูดของมนุษย์จริงๆ นี่คือความละเอียดอ่อนที่ AI เรียนรู้และพัฒนาอย่างต่อเนื่อง

Tools ที่ใช้เทคโนโลยีนี้

ปัจจุบันมีหลากหลายแพลตฟอร์มและเครื่องมือที่นำเทคนิค AI โคลนเสียงมาใช้ เพื่อให้บุคคลทั่วไปและองค์กรต่างๆ สามารถเข้าถึงและสร้างสรรค์ได้อย่างง่ายดาย:

📺 YouTube📘 Facebook