Cara kerjanya pengguna memasukkan permasalahan, kriteria evaluasi, serta solusi awal. Lalu, LLM akan menghasilkan ratusan hingga ribuan modifikasi. Setiap modifikasi dievaluasi oleh algoritma untuk menilai mana yang paling efektif. Sistem kemudian mengembangkan solusi baru berdasarkan hasil terbaik sebelumnya.
Menurut Matej Balog, ilmuwan AI DeepMind sekaligus salah satu pemimpin proyek ini, prosesnya menyerupai evolusi ide, "Kami mengeksplorasi berbagai kemungkinan dalam menyelesaikan satu masalah."
AlphaEvolve merupakan pengembangan dari sistem FunSearch dimana tahun lalu telah berhasil mengungguli manusia dalam memecahkan masalah matematika yang belum terselesaikan. Kini, AlphaEvolve dapat menangani kode lebih kompleks dan digunakan dalam berbagai domain ilmiah, termasuk desain chip dan mekanika matriks.

DeepMind mengklaim bahwa AlphaEvolve bahkan berhasil menemukan metode baru dalam melakukan perkalian matriks—salah satu teknik fundamental dalam pelatihan AI—yang lebih cepat dari metode yang dikembangkan oleh matematikawan Jerman Volker Strassen pada tahun 1969. Dalam pengujian internal, AlphaEvolve mengungguli sistem AlphaTensor yang dirancang khusus untuk tugas ini.
Teknologi ini dinilai memiliki potensi besar untuk diterapkan dalam berbagai bidang sains yang bergantung pada optimasi dan evaluasi berbasis simulasi—seperti desain teleskop, mikroskop, hingga penciptaan material baru.
Namun, sejumlah ilmuwan tetap berhati-hati. "Sampai sistem tersebut diuji oleh komunitas yang lebih luas, saya akan tetap skeptis dan menerima hasil yang dilaporkan dengan skeptis," ujar Huan Sun, peneliti AI di Ohio State University.
Meskipun AlphaEvolve lebih hemat daya dibanding AlphaTensor, sistem ini masih terlalu berat untuk diakses bebas di server DeepMind. Meski begitu, perusahaan berharap ke depan sistem ini bisa digunakan lebih luas oleh komunitas riset.
"Kami benar-benar berkomitmen untuk memastikan bahwa sebagian besar orang dalam komunitas ilmiah mendapatkan akses ke sistem ini," kata Pushmeet Kohli, Kepala Ilmuwan di DeepMind London.
(wep)