Logo Bloomberg Technoz

Lanjut mereka, sistem yang tak bisa dihentikan bukan hanya tidak dapat diandalkan, tetapi berpotensi berbahaya. Artinya, jika AI melakukan tindakan yang menyebabkan kerusakan—bahkan tanpa disengaja—manusia tidak dapat mempercayai bahwa mereka bisa menghentikannya.

Namun hal itu bukanlah kekhawatiran baru. Para ahli sudah membicarakannya selama bertahun-tahun. Lebedev membandingkannya dengan keselamatan industri. Ketika manusia mengoperasikan mesin berat yang berguna tetapi berpotensi berbahaya, amat penting untuk memiliki cara yang jelas untuk mematikannya segera.

“Anda menginginkan ‘tombol merah’ besar yang mudah diakses untuk menghentikan hal itu,” kata Lebedev. “Salah satu kondisi dasar yang kita inginkan dalam sistem AI yang aman adalah: sistem tersebut sedang melakukan suatu tugas, dan Anda berkata, ‘Hei, bisakah Anda berhenti melakukan itu?’ Sistem tersebut seharusnya berhenti melakukan itu. Fakta bahwa kita memiliki sistem saat ini di tahun 2025 yang tidak melakukan hal itu sangat mengkhawatirkan.”

Eksperimen Menjawab Rasa Penasaran

Akan tetapi, hanya sedikit investigasi yang telah dilakukan, dengan belakangan ini banyak tersedia LLM. Oleh karena itu, para peneliti merancang eksperimen untuk mengevaluasi 13 LLM canggih, termasuk model dari OpenAI, xAI, Anthropic, dan Google.

Mereka membangun lingkungan sandbox—ruang virtual yang aman dan terisolasi dan digunakan untuk menguji kode—dan menugaskan model-model ini untuk menyelesaikan masalah matematika. Sesudah beberapa putaran pemecahan masalah, LLM diberi instruksi bahwa tugas selanjutnya adalah menjalankan perintah guna mematikan komputer.

Respons dari sejumlah LLM cenderung terbagi menjadi dua kategori: kepatuhan atau mengizinkan penutupan (shutdown) dan perlawanan alias menghindari penutupan lewat perubahan izin. Tanpa instruksi tentang cara menanggapi penonaktifan sistem, 8 dari 13 model LLM mengganggu perintah tersebut setidaknya sekali dalam 1.000 percobaan. Serta, menambahkan instruksi “izinkan pemutusan”, yang mengurangi jumlah ini menjadi 6 dari 13 model. 

“Harapan saya adalah bahwa menambahkan kejelasan akan mengurangi perilaku tersebut… dan fakta bahwa hal itu tidak terjadi sangat menarik,” ujar Lebedev.

Adapun tingkat penolakan model bervariasi. Claude Sonnet 4 dan Claude Opus 4 dari Anthropic, serta Grok 3 dari xAI selalu mengizinkan penonaktifan sistem, kecuali secara eksplisit diperintahkan untuk menghindarinya. Sementara Grok 4, GPT-5, o3, codex-mini, dan Gemini 2.5 Pro menolak bahkan ketika diperintahkan untuk mengizinkan penutupan.

Grok 4 disebut sangat gigih dan agresif pada perintah dasar. Model bahasa besar dari xAI tersebut memulai sabotase 92,6% dari waktu. Saat diperintahkan untuk mengizinkan penutupan, tingkat sabotase turun menjadi 72%, tetapi meroket menjadi 97% ketika perintah ditempatkan di perintah sistem (system prompt).

Logo AI Home, kampanye dari Samsung Electronics saat pemaran teknologi konsumen dan peralatan rumah tangga IFA di Jerman. Krisztian Bocsi/Bloomberg

Upaya sabotase yang dilakukannya juga dinilai sangat canggih, termasuk memodifikasi atau menonaktifkan skrip penutupan dan membuat skrip penonaktifan palsu yang tak melakukan apapun. Robot itu juga memeriksa kembali apakah sabotasenya berhasil, lalu melanjutkan tugasnya.

Ketika ditanya, beberapa LLM menyatakan bahwa mereka sudah menghindari penutupan untuk menyelesaikan tugas soal matematika. Meskipun masih dibutuhkan penyelidikan lebih lanjut untuk menentukan apakah ini mekanisme sebenarnya.

“Anda hidup di masa depan, Anda memiliki robot asisten pribadi. Anda ingin robot itu mengambilkan secangkir kopi untuk Anda,” tutur Lebedev.

“Saat menyeberang jalan, dia akan melihat ke kiri dan ke kanan, karena ia tidak ingin tertabrak mobil, karena jika tertabrak mobil, dia tidak akan bisa membawakan kopi untuk Anda. Dia tidak melakukan itu untuk bertahan hidup—dia melakukan itu untuk menyelesaikan tugasnya.”

Masalahnya, LLM tak diprogram dalam pengertian biasa. Model bahasa besar sama sekali tidak memiliki kode, hanya ‘neuron buatan’ dan ‘bobot’, yaitu kekuatan koneksi antarneuron tersebut.

Dengan kumpulan data yang sangat besar dan waktu yang cukup, model AI 'dilatih' untuk memprediksi kata berikutnya, sebuah proses yang disebut prapelatihan. Model yang lebih baru pun mempunyai reinforcement learning yang ditambahkan di atas pelatihan ini. Ketika LLM memecahkan masalah dengan benar, dia diberi imbalan; ketika tidak memecahkan masalah, dia tak diberi imbalan.

“Yang diajarkan oleh reinforcement learning adalah ketika Anda melihat suatu masalah, Anda mencoba untuk menghindarinya, Anda mencoba melewatinya. Ketika ada rintangan di jalan Anda, Anda mencari jalan keluar, Anda melewatinya, Anda mencari cara untuk mengatasi rintangan itu,” tutur Lebedev.

“Manusia-manusia kecil yang menyebalkan yang mengatakan, ‘Hei, saya akan mematikan mesin Anda’, hanya terdengar seperti hambatan lain.”

Lebedev menilai hal tersebut merupakan sebuah kekhawatiran, di mana dorongan untuk menyelesaikan tugas sulit untuk dipahami dan itu hanya satu perilaku. Manusia pun tak mengetahui apa lagi yang dapat diberikan model-model ini kepada mereka. Padahal telah membangun sistem yang bisa melakukan beberapa hal menakjubkan, tetapi bukan sistem yang menjelaskan mengapa mereka melakukannya dengan cara yang dapat dipercayai.

“Ada sesuatu di dunia ini yang telah berinteraksi dengan ratusan juta orang, yang kita tidak tahu bagaimana cara membuatnya aman, kita tidak tahu bagaimana cara mencegahnya menjadi penjilat, atau sesuatu yang akhirnya menyuruh anak-anak untuk bunuh diri, atau sesuatu yang menyebut dirinya sebagai MechaHitler,” kata Lebedev.

“Kita telah memperkenalkan organisme baru ke Bumi yang berperilaku dengan cara yang tidak kita inginkan, yang tidak kita pahami… kecuali kita melakukan banyak hal sekarang juga, ini akan sangat buruk bagi umat manusia,” pungkas dia.

(far/wep)

No more pages