Bloomberg Technoz, Jakarta - Jakarta - Teknologi text-to-speech (TTS) berbasis AI semakin canggih, memungkinkan suara digital terdengar semakin menyerupai manusia, bahkan lengkap dengan emosi, jeda alami, dan percakapan multi-pembicara.
Berikut ini lima aplikasi AI terkemuka yang dapat mengubah ketikan prompt menjadi suara manusia realistis:
1. ElevenLabs v3
Eleven v3 (alpha) dari ElevenLabs diklaim sebagai model text-to-speech (TTS) paling ekspresif. Dalam pengumuman di situs resminya dan akun X @elevenlabsio, perusahaan menyebut model ini mendukung lebih dari 70 bahasa dan mampu menghasilkan emosi kompleks seperti tawa, bisikan, hingga desahan.
Fitur yang ditawarkan berupa dukungan tag ekspresi seperti [berbisik], [senang], dan [mendesah]. Selain itu, kemampuan multi-speaker yang menghasilkan dialog layaknya percakapan manusia asli. Di samping itu, pemahaman kontekstual yang memungkinkan penyesuaian intonasi dan ritme suara secara otomatis.
Meski baru dalam tahap alpha, Eleven v3 sudah tersedia bagi pelanggan berbayar, dengan API publik yang akan diluncurkan dalam waktu dekat. Namun, untuk kebutuhan real-time seperti asisten suara, pengguna disarankan tetap memakai versi v2.5 Turbo atau Flash.
Introducing Eleven v3 (alpha) - the most expressive Text to Speech model ever.
— ElevenLabs (@elevenlabsio) June 5, 2025
Supporting 70+ languages, multi-speaker dialogue, and audio tags such as [excited], [sighs], [laughing], and [whispers].
Now in public alpha and 80% off in June. pic.twitter.com/n56BersdUc
2. Play.ht
Salah satu kekuatan utama Play.ht terletak pada kualitas suara AI-nya yang realistis. Platform ini menawarkan lebih dari 200 suara dengan beragam aksen, gaya bicara, serta opsi pengaturan seperti pitch, kecepatan, dan nada yang dapat disesuaikan sesuai kebutuhan pengguna. Selain itu, Play.ht juga mendukung lebih dari 60 bahasa, dan dalam beberapa referensi bahkan menyebutkan hingga 142 bahasa, menjadikannya sangat cocok untuk pelokalan konten global dan e-learning.
Fitur voice cloning menjadi salah satu daya tarik utama, karena memungkinkan pengguna membuat suara digital yang menyerupai suara asli mereka sendiri. Hal ini sangat berguna bagi personalisasi brand maupun konsistensi narasi dalam konten audio. Di sisi interface, Play.ht menyediakan editor TTS berbasis web yang intuitif, mendukung proses batch, pengaturan ekspresi suara, serta penggunaan mode multi-pembicara dalam satu file audio.
Bagi developer, Play.ht menyediakan API yang komprehensif untuk integrasi ke berbagai aplikasi, chatbot, hingga sistem perusahaan. API ini memberikan kontrol penuh terhadap berbagai parameter suara, memudahkan pengembang membangun produk berbasis suara dengan fleksibilitas tinggi.
3. Resemble AI
Resemble AI menawarkan beragam layanan seperti voice cloning, text‑to‑speech, dan speech‑to‑speech dalam lebih dari 60 bahasa, memungkinkan pengguna menghasilkan suara berkualitas tinggi hanya melalui teks atau suara asli sebagai prompt. Teknologi Rapid Voice Cloning-nya bahkan mampu membuat klon suara dari hanya 10 detik atau cukup cepat untuk prototipe atau aplikasi segera.
Selain kemampuan generatif, Resemble AI juga memfokuskan pada keamanan dan keaslian suara. Fitur seperti deepfake detection, AI watermarking, dan speaker enrollment memungkinkan verifikasi pengguna serta proteksi terhadap penyalahgunaan suara sintetis. Resemble AI diklaim menawarkan integrasi API fleksibel dan opsi self‑hosting untuk kebutuhan keamanan data tinggi.
4. Descript (Overdub)
Descript meluncurkan Overdub untuk semua akun, termasuk yang gratis dan Creator. Sejak 25 April 2025, teknologi kloning suara berbasis AI ini dapat digunakan tanpa perlu langganan Pro. Cara membuat suara Overdub kini lebih praktis dan cepat. Pengguna hanya perlu mengunggah rekaman singkat "Voice ID" atau audio lama, tanpa harus membaca naskah panjang selama 30 menit seperti sebelumnya.
Selain itu, Descript membuka kemampuan membuat beberapa model suara berbeda. Misalnya satu untuk rekaman Zoom dan satu lagi untuk audio studio yang bisa dipilih sesuai kebutuhan dalam proyek yang sama. Dengan integrasi mulus ke dalam platform Descript, Overdub kini memungkinkan pengguna mengubah narasi audio hanya dengan mengetik ulang teks dan kemudian menghasilkan suara secara otomatis. Fitur ini sangat berguna bagi podcaster, pembuat konten video, dan profesional media untuk memperbaiki kesalahan atau memperbarui materi tanpa harus rekaman ulang seluruh sesi.
5. Microsoft Azure Neural TTS
Microsoft memperluas kapabilitas Azure AI Speech menjadi rangkaian lengkap layanan suara berbasis AI, mulai dari speech-to-text, text-to-speech, hingga speech translation dan speaker recognition. Teknologi speech-to-text Azure menawarkan berbagai mode transkripsi real-time, fast transcription, dan batch transcription untuk audio pra-rekam. Data tambahan seperti speaker diarization, kemampuan model kustom untuk konteks spesifik industri, serta dukungan lebih dari 100 bahasa meningkatkan akurasi dan fleksibilitas untuk berbagai skenario seperti captioning, call center, dan e-learning.
Di sisi text-to-speech, Azure menggunakan suara neural berkualitas tinggi dengan tersedia dalam format standar (24 kHz) dan HD (48 kHz) yang mampu meniru intonasi, emosi, dan jeda alami manusia. HD voices terbaru bahkan secara otomatis mengenali emosi dalam teks dan menyesuaikan nada serta ritme suara secara real-time. Layanan ini juga mendukung pembuatan custom voice dengan branding unik, SSML untuk kontrol lanjutan, dan opsi deployment di cloud atau edge via containers.
(prc/wep)