Pembuat chatbot populer ChatGPT, OpenAI, secara resmi memperkenalkan tiga model audio mutakhir untuk memperkuat ekosistem kecerdasan buatan berbasis suara mereka. Langkah ini menandai kemajuan signifikan dalam interaksi manusia dengan mesin secara verbal.
Ketiga model kecerdasan buatan (AI) tersebut diberi nama GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper. Sebagaimana dikutip dari Tekno, masing-masing model membawa spesialisasi fungsionalitas yang berbeda untuk kebutuhan pengguna global.
GPT-Realtime-Translate menjadi salah satu inovasi paling menonjol karena kemampuannya dalam menerjemahkan percakapan dua arah secara instan. Teknologi ini memungkinkan dua individu yang menggunakan bahasa berbeda untuk berkomunikasi dengan lancar tanpa hambatan berarti.
Model penerjemahan ini telah dibekali dukungan untuk lebih dari 70 bahasa input serta 13 bahasa output. Melalui integrasi ini, setiap partisipan dapat tetap berbicara menggunakan bahasa ibu mereka, sementara AI bekerja menerjemahkannya secara real-time ke lawan bicara.
Pihak OpenAI mengeklaim bahwa teknologi ini didesain secara presisi untuk mengimbangi ritme percakapan alami manusia. Kemampuan adaptasinya mencakup situasi ketika pengguna berbicara dengan tempo cepat, melakukan perpindahan konteks, hingga penggunaan idiom regional.
Startup asal India, BolnaAI, memberikan validasi terhadap performa teknologi ini. Berdasarkan pengujian mereka, tingkat kesalahan kata atau Word Error Rate (WER) model ini tercatat 12,5 persen lebih rendah dibandingkan model pesaing, khususnya pada bahasa Hindi, Tamil, dan Telugu.
Selain penerjemahan, OpenAI juga meluncurkan GPT-Realtime-Whisper yang berfokus pada fungsi speech-to-text. Model ini dikembangkan untuk menyalin ucapan manusia menjadi teks secara langsung dengan tingkat latensi atau jeda yang sangat minim.
Teknologi ini diproyeksikan sangat efektif untuk kebutuhan pembuatan takarir (caption) rapat secara langsung, kelas daring, hingga dokumentasi siaran langsung. Penggunaannya juga meluas untuk pembuatan ringkasan pertemuan otomatis serta membantu efisiensi agen layanan pelanggan.
Keunggulan Performa GPT-Realtime-2
Seluruh sistem terbaru ini ditenagai oleh GPT-Realtime-2, mesin suara generasi terbaru yang diklaim memiliki kemampuan penalaran setara dengan GPT-5. Model ini mampu memproses dialog kompleks dengan pemahaman konteks yang lebih mendalam.
Peningkatan signifikan terlihat pada kapasitas context window yang melonjak dari 32K menjadi 128K. Ekspansi ini memberikan kemampuan bagi AI untuk mengingat detail percakapan yang jauh lebih panjang serta mengeksekusi instruksi yang lebih rumit dari sebelumnya.
GPT-Realtime-2 juga mendukung fitur parallel tool calls, yang mengizinkan sistem menjalankan beberapa perintah secara bersamaan tanpa mengganggu alur pembicaraan dengan pengguna. Dalam uji internal Big Bench Audio, model ini meraih skor akurasi 96,6 persen.
Angka tersebut menunjukkan lompatan besar jika dibandingkan dengan pendahulunya, GPT-Realtime-1.5, yang berada di level 81,4 persen. OpenAI juga menegaskan telah menyertakan protokol keamanan ketat untuk mencegah potensi penyalahgunaan teknologi suara ini untuk aksi penipuan digital.
Sistem Realtime API kini memiliki mekanisme otomatis yang dapat menghentikan interaksi jika terdeteksi adanya pelanggaran terhadap pedoman konten berbahaya. Saat ini, ketiga model tersebut sudah dapat diakses oleh para pengembang melalui infrastruktur API milik OpenAI.
Mengenai struktur biaya, GPT-Realtime-2 dipatok seharga 32 dollar AS per 1 juta token input audio dan 64 dollar AS untuk output. Sedangkan GPT-Realtime-Translate dihargai 0,034 dollar AS per menit, dan GPT-Realtime-Whisper sebesar 0,017 dollar AS per menit.