GPT Realtime 2 Terbaru dari OpenAI, Apa Saja Kebisaannya?

Merinda Faradianti

13 May 2026 19:20

OpenAI. dok: SeongJoon Cho/Bloomberg

Bloomberg Technoz, Jakarta - OpenAI resmi meluncurkan GPT-Realtime-2, model kecerdasan buatan (AI) berbasis audio terbaru yang dirancang untuk menghadirkan percakapan suara lebih natural, cepat, dan mampu melakukan penalaran kompleks secara real-time.

Model ini diumumkan sebagai bagian dari pembaruan API yang bertajuk “Advancing Voice Intelligence with New Models in the API” terbaru OpenAI untuk pengembang aplikasi berbasis suara, dilansir dari laman resminya, dikutip Rabu (13/5/2026).

Selain GPT-Realtime-2, OpenAI juga memperkenalkan dua model lain, yakni GPT-Realtime-Translate untuk terjemahan suara langsung lintas bahasa dan GPT-Realtime-Whisper untuk transkripsi audio secara streaming. Ketiga model tersebut ditujukan untuk mendukung generasi baru asisten AI suara, layanan pelanggan otomatis, hingga agen virtual berbasis percakapan langsung.

“Kami memperkenalkan tiga model audio di API yang membuka kelas baru aplikasi suara untuk pengembang,” tulis OpenAI.

Menurut OpenAI, GPT-Realtime-2 menjadi model audio pertama mereka yang membawa kemampuan GPT-5-class reasoning ke dalam interaksi suara. Teknologi ini memungkinkan AI memahami konteks percakapan lebih panjang, menangani interupsi secara alami, hingga menjalankan tool atau perintah selama percakapan berlangsung.

Model tersebut juga mendukung speech-to-speech interaction secara langsung tanpa harus mengubah audio menjadi teks terlebih dahulu. Dengan pendekatan ini, respons suara AI diklaim menjadi lebih cepat dan terasa lebih manusiawi dibanding sistem voice assistant tradisional.

Sedangkan untuk fitur penerjemahan, GPT-Realtime-Translate mendukung lebih dari 70 bahasa input dan 13 bahasa output secara real-time. Sementara GPT-Realtime-Whisper difokuskan pada transkripsi suara langsung untuk kebutuhan caption meeting, dokumentasi otomatis, dan live note-taking.

OpenAI mengeklaim bahwa peningkatan performa terlihat pada evaluasi audio yang dinilai mendekati penggunaan agen suara di lingkungan produksi. Model GPT-Realtime-2 (high) mencatat skor 15,2% lebih tinggi dibanding GPT-Realtime-1.5 dalam pengujian Big Bench.

OpenAI menghadirkan GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper melalui Realtime API. Untuk biaya penggunaan, GPT-Realtime-2 dibanderol sebesar US$32 per 1 juta token input audio dan US$64 per 1 juta token output audio. Sementara token input cache dikenakan tarif US$0,40 per 1 juta token. Adapun GPT-Realtime-Translate dipatok US$0,034 per menit, sedangkan GPT-Realtime-Whisper dihargai US$0,017 per menit.