Logo Bloomberg Technoz

Pada pertengahan November, kerusakan pada perusahaan keamanan web Cloudflare Inc. membuat sejumlah besar situs tumbang, termasuk ChatGPT, otoritas transportasi New Jersey, dan platform media sosial X.

Mungkin terasa aneh bahwa masalah pada satu penyedia bisa memicu kerusakan berantai sebesar itu. Alasannya terletak pada bagaimana internet berkembang sejak awal kemunculannya, serta pada berbagai jalan pintas efisiensi dan biaya yang diambil perusahaan-perusahaan yang layanannya digunakan oleh jutaan konsumen.

Bagaimana pengguna mengakses internet?

Saat seorang pengguna di Inggris mengetik google.com di ponsel atau komputernya, proses yang rumit namun sangat cepat pun dimulai. Semua perangkat — ponsel, PC, server — yang terhubung ke internet memiliki pengenal yang disebut alamat IP dan menggunakan Domain Name System (DNS) untuk menemukan dan berkomunikasi satu sama lain. Sementara itu, situs dan aplikasi seperti Google terdiri dari paket-paket data yang berisi teks, gambar, dan fitur.

Untuk membuka Google, perangkat pengguna mengirim permintaan paket-paket data tersebut melalui WiFi, data seluler, atau koneksi kabel. Permintaan itu bergerak melalui infrastruktur fisik seperti router, kabel, switch, pusat data regional, dan mungkin melalui kabel bawah laut sampai mencapai server Google yang tepat. Server itu — yang berada di dalam pusat data bersama ratusan ribu server Google lainnya — memeriksa permintaan tersebut dan mengirimkan kembali paket data yang relevan kepada pengguna melalui jaringan infrastruktur global yang sama.

Pemadaman bisa terjadi ketika ada masalah pada salah satu bagian dari rantai yang saling terhubung itu. Dan sebagian besar alasan mengapa pemadaman kini dapat terjadi dalam skala besar adalah karena meningkatnya penggunaan komputasi awan (cloud computing).

Apps like Google are made up of packets of data, comprising text, images and functionality. (Photographer: Angel Garcia/Bloomberg)

Mengapa pemadaman kini terasa begitu mengganggu?

Perubahan besar dalam cara kerja internet terletak pada di mana data dan infrastruktur disimpan. Pada tahun 1990-an dan awal 2000-an, perusahaan yang memiliki situs web biasanya memiliki server sendiri di kantor atau kantor pusat — disebut on-premises. Atau mereka menyewa server dari perusahaan lain namun tetap mengelola perangkat keras dan perangkat lunaknya. Bagi pengguna individu, segala sesuatu yang melibatkan komputer berarti menyimpan data secara lokal: Musik, foto, dan file disimpan di hard drive. Pemadaman hanya berdampak pada satu perangkat, misalnya file yang rusak — menjengkelkan, tetapi tidak memengaruhi orang lain.

Komputasi awan menjadi arus utama setelah Amazon — yang saat itu dikenal sebagai raksasa ritel online — menyadari bahwa para insinyurnya menghabiskan terlalu banyak waktu menyelesaikan masalah yang sama terkait infrastruktur komputasi dan penyimpanan data. Amazon membangun infrastruktur bersama untuk meringankan beban tersebut, lalu menyadari bahwa konsep itu bisa diterapkan ke sebagian besar internet.

Gagasannya pun berkembang, dan kini sebagian besar pengguna internet serta bisnis bergantung pada komputasi awan dalam berbagai bentuk. Setelah Amazon Web Services hadir, Microsoft dan Google milik Alphabet meluncurkan layanan mereka sendiri, dan ketiga perusahaan tersebut mendominasi komputasi awan secara global.

Secara praktik, itu berarti mengoperasikan jutaan server di pusat data. Pusat data ini biasanya dibagi menjadi “wilayah” (regions) — kumpulan pusat server yang melayani negara atau area tertentu. Beberapa wilayah mengelola lalu lintas lebih besar, sehingga dampaknya bisa sangat besar jika satu wilayah mengalami gangguan. Beberapa perusahaan bahkan memiliki ketergantungan regional yang tidak mereka sadari, sehingga layanan mereka ikut gagal akibat pemadaman di wilayah lain.

Pemadaman AWS pada bulan Oktober disebabkan oleh bug yang mempengaruhi salah satu layanan utamanya, memicu kegagalan berantai dan mematikan banyak situs serta layanan besar.

Karena internet bukan sekadar kumpulan paket data, tetapi juga infrastruktur fisik, insiden dapat berasal dari berbagai penyebab seperti bug perangkat lunak, pusat data yang terlalu panas, atau kabel yang rusak. Sungguh mengejutkan bahwa internet tidak lebih sering mengalami kerusakan.

Mengapa layanan awan seperti AWS, Microsoft Azure, dan Google Cloud begitu dominan?

Di Inggris, misalnya, AWS dan Azure menguasai lebih dari 70% pasar komputasi awan. Ini dipicu oleh keuntungan sebagai pemain awal, posisi kuat Microsoft dalam teknologi perusahaan, dan kekuatan finansial besar.

Namun ketergantungan pada segelintir penyedia besar memiliki dampak lanjutan. Satu pemadaman kini dapat mematikan sebagian besar internet.

Para hyperscaler ini juga dikritik karena praktik bisnis yang membuat pemain baru sulit bersaing, dan membuat bisnis sulit berpindah ke penyedia cloud lain. Karena infrastruktur tiap layanan berbeda, biaya migrasi bisa sangat besar. Insinyur cloud juga biasanya tersertifikasi hanya untuk satu penyedia tertentu, meningkatkan biaya dan kesulitan untuk melakukan diversifikasi.

Apa yang bisa salah dengan layanan cloud besar?

Salah satu alasan penyedia cloud besar begitu populer adalah karena mereka pada umumnya andal. Komputasi awan merupakan bagian bisnis yang berkembang cepat dan mereka berkepentingan menjaga layanan tetap berjalan lancar.

Meski begitu, hal itu tidak dapat mengatasi kenyataan bahwa layanan teknologi kini sangat saling terhubung, terutama ketika segelintir perusahaan mendominasi berbagai lapisan infrastruktur.

Contohnya CrowdStrike Holdings Inc., bukan perusahaan teknologi raksasa, tetapi dominan di bidang keamanan siber. Popularitasnya membuat perangkat lunaknya berjalan di jutaan sistem Microsoft Windows — sering kali di perusahaan besar dengan operasi penting. Ketika CrowdStrike mengeluarkan pembaruan perangkat lunak yang bermasalah pada Juli 2024 melalui pembaruan cloud, hal itu langsung menyebabkan “Blue Screen of Death” di jutaan komputer. Meskipun masalahnya bukan pada cloud itu sendiri, sifat pembaruan berbasis cloud yang dikirim secara bersamaan membuat jutaan perangkat rusak dalam sekejap.

Apa yang dapat dilakukan perusahaan untuk melindungi diri dari risiko pemadaman?

Hal terpenting yang dapat dilakukan perusahaan adalah memikirkan terlebih dahulu apa yang harus dilakukan jika terjadi pemadaman — sebelum insiden itu benar-benar terjadi. Ini bisa berarti mengeluarkan biaya tambahan untuk memastikan adanya layanan cadangan jika region utama mereka mengalami gangguan, atau menyesuaikan infrastruktur agar memiliki server cadangan “in-house” untuk layanan yang paling kritis.

Bagi kita sebagai pengguna, tidak banyak yang bisa dilakukan saat terjadi kegagalan sistem besar kecuali menunggu penyedia cloud memperbaikinya. Ambil jeda sejenak dari layar, hirup udara segar, dan renungkan betapa kompleksnya infrastruktur di balik komputer yang (sebagian besar waktu) membuat semuanya berjalan lancar.

(bbn)

No more pages