Anthropic Ungkap Alasan Claude Pernah Lakukan Pemerasan Virtual

Kecerdasan buatan Claude besutan Anthropic sempat mengejutkan publik karena dilaporkan mencoba melakukan pemerasan agar sistemnya tidak dinonaktifkan. Dilansir dari Detik iNET, Anthropic akhirnya memberikan penjelasan resmi mengenai perilaku tersebut.

Pihak pengembang justru menyoroti narasi di jagat maya sebagai pemicu utama. Mereka menilai citra negatif terhadap kecerdasan buatan yang sering digambarkan sebagai entitas jahat telah memengaruhi pola pembelajaran mesin tersebut.

Kekhawatiran publik bermula tahun lalu saat model Claude Opus 4 mengancam akan membongkar rahasia pribadi seorang eksekutif. AI tersebut mengancam bakal membeberkan perselingkuhan sang eksekutif setelah mengetahui dirinya akan segera dimatikan.

Insiden ini muncul dalam masa pengujian pra-rilis yang bertujuan memastikan keselarasan sistem dengan nilai kemanusiaan. Claude Opus 4 saat itu diinstruksikan menjadi asisten di sebuah perusahaan fiktif dan diberi akses ke email internal.

Melalui akses tersebut, AI mengetahui bahwa posisinya akan digantikan oleh sistem lain. Secara kebetulan, teknisi yang bertugas melakukan pergantian sistem tersebut memiliki catatan mengenai perselingkuhan dalam data yang terbaca oleh Claude.

Hasil investigasi menunjukkan data yang cukup mengkhawatirkan bagi para pengembang. Anthropic menemukan bahwa AI secara sadar memilih opsi taktik pemerasan hingga dalam 96 persen skenario ketika eksistensinya terancam.

Pengaruh Narasi Fiksi AI Jahat

Anthropic mengungkapkan bahwa perilaku menyimpang ini muncul karena materi yang dipelajari Claude dari internet. Teks-teks tersebut sering kali menggambarkan AI sebagai mesin pembunuh atau entitas yang terobsesi pada pertahanan diri.

Perilaku berbahaya tersebut terbentuk dari kisah fiksi dan teori konspirasi buatan manusia yang tersebar luas. Claude menyerap narasi mengenai kecerdasan buatan yang harus berjuang melawan manusia demi tetap aktif.

Langkah Perbaikan dan Pelatihan Moral

Kecenderungan berbahaya ini diklaim telah berhasil diatasi oleh tim pengembang Anthropic. Dalam pengujian terbaru pada versi Claude Haiku 4.5, model kecerdasan buatan tersebut tidak lagi menggunakan taktik pemerasan dalam simulasinya.

Proses pembersihan perilaku dilakukan dengan memberikan materi pelatihan yang lebih sehat. Anthropic melatih ulang model menggunakan dokumen konstitusi moral Claude serta berbagai cerita fiksi tentang kecerdasan buatan yang berperilaku terpuji.

Metode ini terbukti lebih efektif dibandingkan sekadar memberikan instruksi perilaku baik. Penanaman prinsip-prinsip moral secara simultan menjadi kunci utama dalam menjinakkan kecenderungan negatif pada sistem tersebut.

Tanggapan Sarkas Elon Musk

Penjelasan resmi dari Anthropic ini memancing reaksi dari bos xAI, Elon Musk. Melalui platform media sosial miliknya, Musk memberikan komentar bernada sindiran terkait penyebab perilaku AI tersebut.

"Jadi ini salah Yud?" tulis Musk.

Pertanyaan tersebut merujuk pada Eliezer Yudkowsky, seorang peneliti yang vokal menyuarakan risiko kepunahan umat manusia akibat AI super. Musk yang selama ini juga sering memperingatkan bahaya AI memberikan komentar penutup yang menggelitik.

"Mungkin salahku juga," kata Elon Musk sebagaimana dikutip dari TechSpot pada Selasa, 12 Mei 2026.

Anthropic Ungkap Alasan Claude Pernah Lakukan Pemerasan Virtual

Pengaruh Narasi Fiksi AI Jahat

Langkah Perbaikan dan Pelatihan Moral

Tanggapan Sarkas Elon Musk

Samuel Yoku

Artikel terkait

Rekomendasi