Google เปิดตัว Gemini 3.1 Flash TTS รุ่นใหม่ ควบคุมเสียง AI ละเอียดถึงระดับประโยคด้วย Audio Tags

GogolicoNews16 เมษายน 256972 Views

Google เปิดตัว Gemini 3.1 Flash TTS โมเดลแปลงข้อความเป็นเสียงพูดรุ่นล่าสุด ที่นำเสนอฟีเจอร์ Audio Tags สำหรับควบคุมการพูดแบบละเอียดระดับประโยค พร้อมคะแนนคุณภาพจากมนุษย์ที่สูงที่สุดในตลาด เริ่ม Rollout แล้ววันนี้บน Gemini API, Google AI Studio และ Vertex AI

สั่งให้ AI พูดแบบไหนก็ได้ ไม่ต้องเขียนโค้ดเพิ่ม

ความสามารถที่เปลี่ยนเกมของ Gemini 3.1 Flash TTS คือระบบ Audio Tags ที่ให้ฝังคำสั่งควบคุมเสียงลงในข้อความโดยตรงด้วยภาษาธรรมชาติ ตัวอย่างเช่น สั่งให้พูดด้วยน้ำเสียงตื่นเต้น ชะลอจังหวะในช่วงสำคัญ หรือเน้นคำใดคำหนึ่งเป็นพิเศษ โดยไม่ต้องตั้งค่าพารามิเตอร์แยกต่างหาก ทำให้กระบวนการผลิตเสียง AI เร็วและยืดหยุ่นขึ้นมาก

ระบบนี้ยังรองรับบทสนทนาหลายเสียง (Multi-speaker Dialogue) ในไฟล์เดียวกัน ซึ่งเหมาะกับการผลิต Podcast, หนังสือเสียง หรือเสียงตัวละครในเกม โดยแต่ละเสียงสามารถมีโปรไฟล์ที่แตกต่างกันและตอบสนองต่อบริบทบทสนทนาได้อย่างเป็นธรรมชาติ

เครื่องมือใหม่ใน AI Studio ให้นักพัฒนานั่งแท่น “ผู้กำกับเสียง”

Google AI Studio อัปเดตชุดเครื่องมือที่เรียกว่า “Director’s Chair” ซึ่งให้นักพัฒนาควบคุมการสร้างเสียงได้ครบวงจรในที่เดียว เริ่มตั้งแต่การกำหนดบริบทฉากและคำแนะนำบทสนทนา ไปจนถึงการสร้าง Audio Profile เฉพาะสำหรับตัวละครแต่ละตัว พร้อมกำหนด Director’s Notes เพื่อควบคุมสำเนียง โทน และจังหวะการพูด

เมื่อปรับแต่งจนได้เสียงที่ต้องการแล้ว นักพัฒนาสามารถ export พารามิเตอร์ทั้งหมดออกมาเป็น Gemini API code เพื่อนำไปใช้งานในโปรเจกต์จริงได้ทันที โดยเสียงที่ได้จะมีความสม่ำเสมอในทุกแพลตฟอร์มและทุกครั้งที่เรียกใช้

คุณภาพระดับ Top ในราคาที่คุ้มค่า

Gemini 3.1 Flash TTS ทำคะแนน Elo สูงถึง 1,211 บน Artificial Analysis TTS Leaderboard ซึ่งเป็นเกณฑ์วัดที่รวบรวมความเห็นจากมนุษย์จริงนับพัน และได้รับการจัดอยู่ใน “Most Attractive Quadrant” ซึ่งหมายถึงกลุ่มโมเดลที่สมดุลระหว่างคุณภาพสูงและต้นทุนต่ำ ไม่ใช่แค่ดีในมิติใดมิติหนึ่ง

ด้านความปลอดภัย เสียงทุกชิ้นที่สร้างจาก Gemini 3.1 Flash TTS จะมีลายน้ำดิจิทัล SynthID ฝังอยู่ในระดับที่หูมนุษย์ไม่ได้ยิน แต่ระบบตรวจจับสามารถอ่านได้ เพื่อยืนยันว่าเสียงนั้นสร้างโดย AI และป้องกันการนำไปใช้เป็นเครื่องมือสร้างข้อมูลเท็จหรือปลอมแปลงตัวตน

ปัจจุบัน Gemini 3.1 Flash TTS เปิดให้นักพัฒนาทดลองใช้งาน (Preview) ผ่าน Gemini API และ Google AI Studio พร้อมให้ระดับ Enterprise บน Vertex AI และผู้ใช้ Google Workspace ผ่านแอปฯ Google Vids โดย Google ระบุว่าโมเดลนี้ถูกออกแบบมาเพื่อรองรับการสร้างประสบการณ์เสียง AI ในระดับโลก ด้วยการรองรับมากกว่า 70 ภาษาพร้อมการควบคุมสำเนียงและสไตล์ที่แม่นยำในแต่ละตลาด

ข้อมูลจาก: Google Blog

Loading Next Post...
Search Trending
Popular
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...