“Kami percaya bahwa evaluasi lebih penting sekarang daripada saat kami memulai,” kata Ion Stoica, salah satu pendiri dan Chairman LMArena. Stoica, seorang profesor UC Berkeley, juga merupakan salah satu pendiri perusahaan-perusahaan teknologi seperti Databricks Inc. dan Anyscale Inc.
Situs web LMArena memungkinkan orang untuk menguji banyak model AI mutakhir dan melihat bagaimana mereka bekerja secara langsung. Pengguna kemudian memilih yang mereka sukai di peringkat situs, yang diawasi secara ketat oleh komunitas teknologi.
Dibuat pada awal tahun 2023, beberapa bulan setelah OpenAI merilis ChatGPT dan hiruk pikuk yang ditimbulkannya, situs pengujian ini dibangun sebagai proyek penelitian oleh UC Berkeley's Sky Computing Lab. Situs ini segera menjadi tempat yang populer bagi para pengguna awal, dan menjadi indikator utama dalam skala pembandingan AI yang berkembang pesat, dengan satu juta pengunjung per bulan.
Stoica, yang merupakan penasihat fakultas untuk proyek ini di masa-masa awal, meluncurkan perusahaan bersama Anastasios Angelopoulos dan Wei-Lin Chiang - yang keduanya adalah pemimpin proyek penelitian, dan sekarang masing-masing menjabat sebagai chief executive officer (CEO) dan chief technology officer (CTO).
Sejauh ini, orang-orang telah memberikan total lebih dari 3 juta suara untuk lebih dari 400 model AI di platform LMArena, kata perusahaan tersebut. Perusahaan-perusahaan AI ternama dan pendatang baru menggunakan situs web ini untuk menguji model-model baru mereka, termasuk Google, OpenAI, Anthropic, xAI, dan DeepSeek. Beberapa perusahaan bahkan memposting model di situs ini sebelum merilisnya secara umum, seperti yang dilakukan OpenAI dengan model GPT-4o pada musim semi lalu. Sebelum DeepSeek menarik perhatian dunia pada akhir Januari, diam-diam DeepSeek naik peringkat di Chatbot Arena.
Anjney Midha, seorang mitra di Andreessen Horowitz, mengatakan bahwa startup ini telah mempermudah laboratorium yang membangun model AI sumber terbuka khususnya untuk melihat bagaimana teknologi mereka dibandingkan dengan model berpemilik. Dan seiring dengan semakin meluasnya penggunaan AI, katanya, pengujian menjadi semakin penting untuk membantu menentukan apakah alat AI dapat diandalkan.
“Gagasan bahwa kita harus mendekati keandalan AI dari perspektif platform yang terus diuji sangat mendasar, dan telah menjadi sangat penting untuk seluruh bidang,” katanya.
Namun, bahkan sebagai sebuah proyek penelitian, dibutuhkan biaya beberapa juta dolar AS per tahun untuk menjalankan platform ini, kata Stoica. Pendanaan akan digunakan untuk mengembangkan LMArena dan mempekerjakan lebih banyak orang, serta membayar biaya seperti komputasi yang diperlukan untuk menjalankan model AI di situs.
Perusahaan juga berencana untuk menambahkan lebih banyak fitur ke platform dan melakukan penelitian, kata Angelopoulos. LMArena berharap untuk meningkatkan keragaman orang yang memilih di platform, tambahnya; saat ini sekitar 60% penggunanya berada di industri teknologi.
“Kenyataannya adalah bahwa ini lebih dari sekadar proyek akademis,” kata Angelopoulos. “Jadi kita perlu membangun sebuah organisasi yang dapat mengambil platform ini, mendukungnya, dan mengembangkannya menjadi sesuatu yang lebih baik lagi untuk mendukung masyarakat, mencerminkan preferensi masyarakat, dan membantu ekosistem belajar dari preferensi manusia untuk membangun model yang hebat dan dapat diandalkan.”
(bbn)
































