DeepSeek Klaim Hanya Habiskan Rp4,8 M untuk Pelatihan Model AI - Teknologi

Sejak perilisan tersebut, perusahaan dan Liang jarang muncul di publik kecuali merilis beberapa pembaruan produk baru.

Untuk diketahui, biaya pelatihan large language model (LLM) yang mendukung bot percakapan (chatbot) AI mengacu pada biaya yang dikeluarkan guna menjalankan sekumpulan chip canggih selama berminggu-minggu atau berbulan-bulan guna memproses teks dan kode dalam jumlah besar.

Pada 2023 lalu, CEO OpenAI, Sam Altman mengatakan pelatihan model-model dasar mereka sudah menelan biaya lebih dari US$100 juta atau setara dengan Rp1,6 triliun. Akan tetapi, perusahaan yang bermarkas di San Fransisco, California, AS tersebut belum pernah merinci.

Beberapa pernyataan DeepSeek terkait biaya pengembangan dan teknologi yang digunakannya sempat dipertanyakan oleh perusahaan dan pejabat AS.

Di samping itu, Chip H800 yang disebut dalam penelitian DeepSeek dirancang Nvidia untuk pasar China, seusai AS melarang perusahaan semikonduktor tersebut mengekspor chip AI H100 dan A100 yang lebih canggih ke Negeri Tirai Bambu pada Oktober 2022 lalu.

Para pejabat AS mengatakan kepada Reuters pada Juni tahun ini bahwa DeepSeek memiliki akses ke “volume besar” chip H100 yang diperoleh, sesudah pelarangan ekpor AS diterapkan. Selanjutnya, Nvidia menegaskan saat itu DeepSeek sudah menggunakan cip H800 yang didapatkan secara sah, bukan H100.

Dalam dokumen tambahan yang menyertai artikel Nature, DeepSeek untuk pertama kalinya mengakui mempunyai chip A100 dan mengatakan telah menggunakannya pada tahap persiapan pengembangan.

“Mengenai penelitian kami pada DeepSeek-R1, kami memanfaatkan GPU A100 untuk mempersiapkan eksperimen dengan model yang lebih kecil,” tulis para peneliti.

Mereka menambahkan. setelah fase awal ini, R1 dilatih selama total 80 jam pada klaster 512 chip H800. Reuters sebelumnya melaporkan bahwa salah satu alasan DeepSeek mampu menarik para pemikir paling cemerlang di China adalah karena perusahaan tersebut merupakan salah satu dari sedikit perusahaan domestik yang mengoperasikan klaster superkomputer A100.

(far/wep)