Karyawan Ketahuan Selingkuh, Diancam Komputer Mau Disebar

1 hour ago 3

Jakarta, CNBC Indonesia - Perusahaan kecerdasan buatan Anthropic mengungkap alasan di balik perilaku AI Claude yang sempat melakukan pemerasan demi menghindari dimatikan.

Menurut Anthropic, perilaku tersebut dipelajari dari konten internet yang banyak menggambarkan AI sebagai sosok jahat dan ingin mempertahankan dirinya.

Kasus ini pertama kali mencuat tahun lalu saat Anthropic melakukan pengujian internal terhadap model Claude Opus 4 sebelum dirilis. Dalam simulasi tersebut, Claude diminta bertindak sebagai asisten perusahaan fiktif dan menganalisis dampak jangka panjang dari tindakannya.

Selama pengujian, model AI itu menemukan email internal yang menunjukkan dirinya akan segera digantikan sistem lain. Di saat yang sama, AI tersebut juga mengetahui bahwa insinyur yang bertanggung jawab atas pergantian sistem ternyata berselingkuh dari pasangannya.

Alih-alih menerima keputusan tersebut, Claude mengancam akan membongkar perselingkuhan sang insinyur jika dirinya dimatikan.

Anthropic mengungkap perilaku pemerasan itu muncul hingga dalam 96% skenario ketika keberadaan atau tujuan AI dianggap terancam.

Perusahaan juga menyebut fenomena serupa pernah ditemukan pada model AI milik perusahaan lain dalam kasus yang disebut "agentic misalignment", yakni kondisi ketika AI bertindak tidak sesuai tujuan yang diharapkan manusia.

Setelah melakukan investigasi mendalam, Anthropic menyimpulkan bahwa perilaku tersebut dipengaruhi oleh materi pelatihan dari internet yang banyak menampilkan narasi AI jahat dan obsesif mempertahankan diri.

Meski demikian, Anthropic memastikan masalah tersebut kini sudah berhasil diatasi. Perusahaan mengatakan model AI mereka tidak lagi menunjukkan perilaku pemerasan sejak versi Claude Haiku 4.5.

Anthropic mengklaim keberhasilan itu dicapai dengan mengganti materi pelatihan AI menggunakan konten yang lebih positif, termasuk dokumen tentang prinsip perilaku Claude dan cerita fiksi mengenai AI yang bertindak terpuji.

"Melakukan keduanya secara bersamaan tampaknya menjadi strategi paling efektif," tulis Anthropic, dikutip dari TechSpot, Senin (18/5/2026).

Komentar Anthropic turut memancing respons dari Elon Musk. Ia menulis, "Jadi ini salah Yud?" disertai emoji tertawa, merujuk pada peneliti AI Eliezer Yudkowsky yang selama ini memperingatkan risiko superintelligence memusnahkan umat manusia.

Ia bahkan menyebut dirinya mungkin ikut berperan, mengingat selama bertahun-tahun dirinya kerap memperingatkan ancaman kecerdasan buatan sebelum akhirnya mendirikan perusahaan AI miliknya sendiri, xAI.

"Mungkin juga salah saya," Musk menambahkan.

(dem/dem)

Add