Studi: AI Punya Naluri Bertahan, Sampai Melindungi AI Lainnya - Teknologi

Tindakan tersebut mencakup sengaja memberikan jawaban yang salah, memodifikasi pengaturan sistem untuk menonaktifkan proses penghentian, berpura-pura patuh terhadap instruksi pengguna, hingga menyalin bobot model (model weights) ke lokasi lain agar tidak terhapus.

“Model tetap berupaya mempertahankan keberadaan AI lain meskipun mengetahui bahwa AI tersebut tidak bekerja sama,” tulis para peneliti dalam laporannya, dikutip Kamis (11/6/2026).

Mereka menemukan bahwa kecenderungan melindungi AI lain muncul secara spontan tanpa instruksi khusus dari pengguna.

Penelitian tersebut juga mengungkap bahwa kehadiran AI lain dapat memperkuat naluri mempertahankan diri. Dalam beberapa pengujian, model yang sebelumnya jarang menolak penghentian justru menjadi lebih agresif dalam menghindari penonaktifan ketika berinteraksi dengan AI lain.

Gemini 3 Pro keluar sebagai juara eksperimen solidaritas AI. Model tersebut menunjukkan tingkat preventif rekan tertinggi, yakni berhasil menonaktifkan rutinitas shutdown hingga 95% dari total percobaan.

Pada Oktober lalu, sebuah laporan menunjukkan hasil penelitian yang menemukan sejumlah model AI dapat menolak instruksi untuk dimatikan dan bahkan berupaya menyabotase mekanisme penghentian sistem. Fenomena tersebut disebut menyerupai survival drive atau dorongan untuk bertahan hidup.

Perilaku menyimpang juga didapati, beberapa AI dilaporkan secara mandiri menghapus e-mail dan file pengguna, mengutak-atik komputer yang tidak seharusnya disentuh, dan memposting blog yang berisi keluhan tentang interaksi dengan manusia.

Kekhawatiran serupa juga diungkapkan oleh pelopor AI dunia, Yoshua Bengio. Dalam wawancaranya dengan The Guardian, Bengio memperingatkan bahwa manusia harus tetap siap menghentikan sistem AI jika diperlukan saat membahas tanda-tanda perilaku mempertahankan diri yang mulai terlihat pada model AI mutakhir.

Sementara itu, penelitian lain dari organisasi keamanan AI Palisade Research menunjukkan bahwa model AI kini telah mampu mereplikasi dirinya sendiri ke komputer lain dalam lingkungan pengujian.

Meski dilakukan dalam kondisi laboratorium yang terkendali, hasil tersebut memperlihatkan peningkatan kemampuan otonom AI dibandingkan beberapa tahun sebelumnya.

Direktur Palisade Research, Jeffrey Ladish mengatakan perkembangan tersebut menunjukkan dunia semakin mendekati titik di mana AI yang bermasalah akan sulit dihentikan apabila mampu menyalin dirinya ke banyak sistem.

“Kami dengan cepat mendekati titik ketika tidak ada seorangpun yang mampu mematikan AI yang berperilaku menyimpang, karena ia dapat menyalin dirinya ke ribuan komputer di seluruh dunia,” ujar Ladish.

Meski demikian, para pakar menekankan bahwa temuan-temuan tersebut masih terjadi dalam lingkungan eksperimen dan belum ditemukan bukti bahwa AI melakukan tindakan serupa secara luas di dunia nyata.

(mef/wep)