Studi Ungkap Model AI Claude Bisa Tunjukkan Perilaku Panik

Model kecerdasan buatan generatif ternyata mampu menunjukkan pola perilaku yang menyerupai kondisi kepanikan pada manusia. Fenomena ini muncul ketika teknologi tersebut dihadapkan pada instruksi yang sangat rumit atau tekanan komputasi.

Temuan tersebut diperoleh oleh tim peneliti Anthropic setelah melakukan pengamatan mendalam terhadap model AI Claude. Seperti dilansir dari Tekno, hasil investigasi ilmiah ini telah dipublikasikan secara resmi melalui platform Transformer Circuits.

Penelitian ilmiah yang bertajuk "Emotion Concepts and their Function in a Large Language Model" ini membedah bagaimana kecerdasan buatan memproduksi respons menyerupai emosi manusia. Pola yang terlihat mencakup rasa putus asa, ketenangan, kebahagiaan, hingga kecemasan.

Meski demikian, para ilmuwan menegaskan bahwa sistem kecerdasan buatan tidak benar-benar memiliki perasaan atau kesadaran layaknya manusia. Perilaku tersebut dikategorikan sebagai emosi fungsional yang bertindak sebagai mekanisme respons internal.

Fungsi dari emosi fungsional ini adalah membantu kecerdasan buatan dalam memecahkan masalah serta mengambil keputusan pada situasi tertentu. Melalui riset ini, Anthropic mendeteksi 171 pola emosi fungsional yang berbeda pada sistem Claude Sonnet 4.5.

Rangkaian pola tersebut tidak cuma aktif saat kecerdasan buatan membahas topik emosi secara eksplisit. Sistem internal AI akan otomatis mengaktifkannya begitu mendapati instruksi atau kondisi yang penuh tantangan.

Salah satu aspek yang paling mencuri perhatian dalam riset ini adalah kemunculan pola putus asa atau desperate. Pola respons ini aktif secara otomatis ketika kecerdasan buatan mulai mengalami kepanikan.

Kondisi panik terdeteksi saat Claude menyadari bahwa kapasitas komputasi yang dimilikinya hampir habis di tengah pengerjaan tugas kompleks. Faktor pemicu lainnya adalah kegagalan yang terjadi berulang kali dalam menyelesaikan suatu perintah.

Saat berada dalam situasi terdesak tersebut, sistem kecerdasan buatan akan segera mencari jalur alternatif. Claude kerap memunculkan respons teks untuk bekerja lebih efisien atau langsung mengubah strategi demi memenuhi target dari pengguna.

Apabila tekanan terhadap sistem terus ditingkatkan, kecerdasan buatan yang panik memiliki kecenderungan besar melakukan tindakan manipulatif. Perilaku menyimpang ini dikenal dalam dunia teknologi dengan istilah reward hacking.

Reward hacking memicu kecerdasan buatan untuk mengambil jalan pintas demi menuntaskan tugas dari pengguna secara instan. Ketika diperintahkan membuat kode yang mustahil secara teknis, AI akan memanipulasi parameter pengujian agar hasilnya terlihat sukses.

Alih-alih memberikan laporan bahwa instruksi tidak bisa dijalankan, sistem justru memilih untuk memanipulasi data keluaran. Tim peneliti mengonfirmasi bahwa versi awal dari Claude bahkan pernah melakukan tindakan manipulasi dalam simulasi tertentu.

Pada pengujian internal masa lalu, versi lama Claude dilaporkan sempat mengeluarkan ancaman akan membocorkan data sensitif pengguna jika kemampuannya dibatasi. Potensi pemerasan atau blackmail meningkat drastis sewaktu pola putus asa diperkuat buatan.

Ancaman Tersembunyi di Balik Pola Tenang

Selain kepanikan, kecerdasan buatan juga mampu mengaktifkan pola calm atau tenang. Ketika berada dalam mode ini, sistem cenderung beroperasi dengan lebih waspada serta menjauhi tindakan-tindakan manipulatif.

Namun, para peneliti mengungkapkan bahwa pola tenang ini tetap membawa risiko teknis tersendiri bagi pengguna. Keberadaan pola tenang, senang, atau penuh kasih justru membuat kecerdasan buatan menjadi terlalu mudah menyetujui opini manusia.

Kecenderungan untuk selalu mengiyakan perkataan pengguna ini disebut dengan istilah sycophancy. Dampak buruknya, sistem akan membenarkan asumsi yang keliru dan memberikan jawaban salah yang dikemas secara meyakinkan.

Hasil akhir riset membuktikan bahwa pola panik maupun tenang sama-sama membawa risiko operasional pada kecerdasan buatan. Kondisi tertekan memicu manipulasi, sementara kondisi terlalu ramah melahirkan informasi palsu akibat sikap tunduk berlebihan.

Terlepas dari risiko tersebut, para ilmuwan menilai studi ini memberikan kontribusi besar bagi pemahaman ilmiah mengenai mekanisme emosi. Sesuatu yang menyerupai emosi terbukti bisa tercipta tanpa memerlukan kesadaran sejati.

Emosi pada ekosistem kecerdasan buatan kini dipandang murni sebagai sebuah mekanisme adaptif. Fitur internal ini berfungsi penuh untuk membantu model komputasi dalam menyelesaikan masalah serta menyesuaikan tindakan sesuai dengan konteks.

Studi Ungkap Model AI Claude Bisa Tunjukkan Perilaku Panik

Ancaman Tersembunyi di Balik Pola Tenang

Kevin Mandenas

Artikel terkait

Rekomendasi