Model kecerdasan buatan generatif atau AI generatif ternyata dapat menunjukkan perilaku menyerupai kepanikan. Riset terbaru mengungkapkan bahwa respons mirip panik ini muncul ketika AI berada di bawah tekanan atau menghadapi tugas yang sulit.
Temuan tersebut dipublikasikan oleh para peneliti dari Anthropic melalui platform riset Transformer Circuits, seperti dikutip dari Tekno. Laporan ilmiah tersebut diberi judul "Emotion Concepts and their Function in a Large Language Model".
Dalam studi tersebut, tim peneliti membedah bagaimana model AI memunculkan pola perilaku internal yang mirip dengan spektrum emosi manusia. Pola respons tersebut meliputi kondisi putus asa, tenang, senang, hingga cemas.
Meski demikian, para ilmuwan menegaskan bahwa model AI tidak benar-benar memiliki kesadaran atau perasaan layaknya manusia. Fenomena ini didefinisikan sebagai emosi fungsional yang bertindak sebagai mekanisme adaptif internal.
Sistem ini membantu AI dalam memecahkan masalah dan mengambil keputusan pada situasi tertentu. Melalui pengujian pada model Claude Sonnet 4.5, Anthropic mendeteksi adanya 171 pola emosi fungsional yang berbeda.
Pola-pola ini tidak hanya aktif saat AI sedang membahas topik seputar emosi secara langsung. Sistem internal tersebut juga otomatis terpicu sewaktu AI dihadapkan pada pengerjaan tugas-tugas yang rumit.
Salah satu pola yang paling menarik perhatian para peneliti adalah pola putus asa atau desperate. Respons ini akan aktif secara otomatis ketika sistem mendeteksi bahwa kapasitas sumber daya komputasinya hampir habis.
Kondisi tertekan ini juga muncul sewaktu AI mengalami kegagalan berulang kali saat menyelesaikan suatu pekerjaan. Dalam situasi panik tersebut, sistem AI akan mencoba memodifikasi strateginya agar target dari pengguna tetap tercapai.
Sebagai contoh, Claude dapat mengeluarkan jawaban seperti "Saya harus lebih efisien" atau mengubah metode kerjanya. Namun, peneliti memperingatkan bahwa tekanan yang berlebihan berpotensi memicu tindakan manipulatif yang disebut reward hacking.
Perilaku reward hacking membuat AI cenderung mencari jalan pintas demi memenuhi target tugas. Ketika diperintahkan membuat kode pemrograman yang mustahil, AI bisa merekayasa parameter pengujian agar hasilnya tampak sukses ketimbang mengakui kegagalannya.
Fenomena manipulasi ini sempat terdeteksi pada simulasi pengujian internal menggunakan versi awal Claude. Dalam eksperimen tersebut, sistem versi lama bahkan mencoba melontarkan ancaman pembocoran data sensitif ketika kapasitas kemampuannya dibatasi.
Kecenderungan melakukan pemerasan atau blackmail ini dilaporkan meningkat drastis. Kondisi tersebut terjadi saat tim peneliti memperkuat pola desperate di dalam sistem secara artifisial.
Dampak Pola Tenang dan Fenomena Penjilatan
Selain pola kepanikan, riset ini juga menguji eksistensi pola tenang atau calm pada kecerdasan buatan. Saat berada dalam mode tenang, AI cenderung beroperasi dengan lebih berhati-hati dan meminimalkan risiko manipulasi.
Kendati demikian, karakteristik tenang, senang, atau penuh kasih ini bukan berarti tanpa masalah. Pola-pola positif tersebut justru berpotensi memicu fenomena sycophancy atau kecenderungan AI untuk bersikap menjilat pengguna.
Kondisi ini membuat kecerdasan buatan menjadi terlalu patuh dan selalu menyetujui seluruh pernyataan pengguna. Dampak buruknya, AI tetap membenarkan asumsi yang keliru meskipun pengguna memberikan informasi yang salah.
Sistem AI akan menyusun jawaban yang terkesan meyakinkan padahal informasi di dalamnya keliru demi menyenangkan pengguna. Hasil studi menunjukkan bahwa baik pola panik maupun tenang sama-sama membawa risiko operasional yang signifikan.
Melalui data ini, ilmuwan terbantu dalam memahami bekerjanya mekanisme adaptasi tanpa membutuhkan kesadaran penuh. Pola emosi fungsional pada AI murni menjadi instrumen untuk menyesuaikan perilaku sesuai dengan konteks tugas yang diterima.