Virgo Network Jadi Otak Baru AI Hypercomputer Google

Rita Puspita Sari
•
7 jam yang lalu

Perkembangan artificial intelligence (AI) yang semakin pesat membuat perusahaan teknologi global harus memikirkan ulang infrastruktur pusat data mereka. Model AI modern kini tidak lagi hanya membutuhkan prosesor canggih, tetapi juga sistem jaringan super cepat yang mampu menangani lalu lintas data dalam skala sangat besar secara stabil dan efisien.

Melihat kebutuhan tersebut, Google memperkenalkan Virgo Network, sebuah jaringan pusat data AI generasi baru yang dirancang khusus untuk mendukung pelatihan dan operasional AI skala besar. Teknologi ini menjadi bagian penting dari AI Hypercomputer milik Google, sebuah platform komputasi raksasa yang dikembangkan untuk menopang era AI modern dan agentic AI di masa depan.

Google menyebut Virgo Network sebagai langkah besar dalam mengubah cara pusat data AI bekerja. Jika selama ini jaringan data center tradisional dibuat untuk kebutuhan komputasi umum, Virgo hadir sebagai jaringan khusus AI dengan pendekatan yang jauh berbeda.

AI Modern Membutuhkan Infrastruktur Baru

Dalam beberapa tahun terakhir, perkembangan model AI meningkat sangat cepat. Large language model (LLM) kini memiliki parameter dalam jumlah triliunan dan membutuhkan ribuan hingga ratusan ribu chip AI untuk proses pelatihannya.

Masalahnya, jaringan pusat data tradisional mulai kesulitan menghadapi beban tersebut. Google menilai desain lama tidak lagi cukup karena beberapa faktor utama.

Pertama adalah kebutuhan skala yang sangat besar. Pelatihan model AI modern kini tidak bisa lagi ditangani oleh satu pusat data saja. Dibutuhkan integrasi banyak pusat data yang bekerja sebagai satu sistem komputasi terpadu.

Kedua adalah lonjakan kebutuhan bandwidth. Dalam sistem AI modern, akselerator seperti TPU harus terus bertukar data dalam jumlah sangat besar. Jika bandwidth tidak memadai, proses pelatihan akan melambat dan memunculkan bottleneck.

Selain itu, lalu lintas data AI juga bersifat sangat dinamis. Trafik dapat melonjak drastis hanya dalam hitungan milidetik. Dalam kondisi seperti itu, satu node yang mengalami keterlambatan saja bisa memengaruhi performa seluruh klaster AI.

Faktor penting lainnya adalah latensi. Untuk kebutuhan inferensi real-time, AI membutuhkan waktu respons yang cepat dan konsisten. Karena itu, jaringan dengan latensi rendah menjadi syarat utama.

Google Ubah Arsitektur Jaringan Data Center

Untuk menjawab tantangan tersebut, Google melakukan pendekatan baru dalam membangun jaringan pusat data AI. Perusahaan tidak lagi mengandalkan desain jaringan umum, melainkan menciptakan arsitektur khusus yang lebih datar, cepat, dan efisien.

Dalam sistem baru ini, Google tetap mempertahankan jaringan Jupiter untuk menangani lalu lintas north-south atau komunikasi antara server dan layanan eksternal. Namun untuk komunikasi antar akselerator AI atau east-west, Google memperkenalkan Virgo Network sebagai solusi utama.

Arsitektur baru tersebut terdiri dari tiga lapisan utama.

Lapisan pertama adalah scale-up domain, yakni jaringan berbandwidth tinggi dan latensi rendah yang digunakan untuk komunikasi intensif antar akselerator dalam satu pod.

Lapisan kedua adalah scale-out accelerator fabric atau jaringan east-west. Sistem ini menggunakan teknologi RDMA yang memungkinkan akselerator berkomunikasi langsung dengan efisien dalam skala sangat besar antar pod.

Lapisan ketiga adalah Jupiter front-end network yang menangani akses ke penyimpanan data dan sumber daya komputasi umum dalam skala besar. Menurut Google, pemisahan arsitektur seperti ini memberikan fleksibilitas lebih besar. Setiap bagian jaringan dapat diperbarui secara independen tanpa mengganggu keseluruhan sistem.

Selain itu, pendekatan ini juga memastikan bandwidth khusus untuk kebutuhan AI tetap tersedia tanpa hambatan, sehingga proses pelatihan model besar dapat berjalan optimal.

Virgo Network Dirancang Khusus untuk Beban AI Ekstrem

Virgo Network menjadi inti dari perubahan besar tersebut. Google mendesain Virgo sebagai jaringan AI skala raksasa yang mampu menangani kebutuhan komputasi generasi berikutnya. Salah satu teknologi utama yang digunakan adalah switch high-radix. Teknologi ini memungkinkan lebih banyak port dalam satu switch sehingga jumlah lapisan jaringan dapat dikurangi.

Virgo menggunakan topologi dua lapis non-blocking yang datar. Dengan desain ini, data dapat berpindah lebih cepat karena jalur komunikasi lebih pendek dibanding arsitektur pusat data tradisional. Google juga membangun Virgo dengan desain multi-planar yang memiliki domain kontrol independen. Tujuannya adalah meningkatkan stabilitas dan ketahanan sistem ketika terjadi gangguan perangkat keras.

Melalui arsitektur tersebut, Virgo mampu menyediakan bandwidth sangat besar dengan latensi rendah yang stabil untuk mendukung pelatihan maupun layanan AI.

Mampu Hubungkan 134 Ribu Chip AI

Google mengklaim Virgo Network memiliki kapasitas yang sangat besar. Sistem ini mampu menghubungkan hingga 134 ribu chip TPU v8 dalam satu jaringan terpadu. Bandwidth non-blocking yang disediakan bahkan mencapai 47 petabit per detik. Angka tersebut menunjukkan skala luar biasa yang dibutuhkan AI modern.

Tidak hanya itu, Virgo juga menghadirkan peningkatan bandwidth hingga empat kali lipat per akselerator dibanding generasi sebelumnya. Dengan kemampuan tersebut, setiap chip AI dapat bekerja secara maksimal tanpa terhambat keterbatasan jaringan.

Di sisi lain, Google menyebut Virgo mampu menurunkan latensi jaringan hingga 40 persen dibanding generasi sebelumnya. Penurunan ini sangat penting untuk menjaga stabilitas performa AI, terutama pada aplikasi yang membutuhkan respons cepat secara real-time.

Fokus pada Keandalan Sistem

Dalam sistem berskala sangat besar, kegagalan perangkat keras menjadi hal yang tidak bisa dihindari. Google memahami bahwa satu komponen rusak dapat mengganggu proses pelatihan AI secara keseluruhan.

Karena itu, Virgo dirancang dengan fokus besar pada keandalan sistem. Salah satu pendekatan yang digunakan adalah isolasi gangguan. Virgo memakai switching plane independen untuk memastikan kerusakan lokal tidak menyebar dan memengaruhi seluruh klaster.

Google juga menerapkan sistem observabilitas tingkat tinggi melalui telemetri sub-milidetik. Teknologi ini memungkinkan pemantauan jaringan secara detail untuk mendeteksi kemacetan sementara maupun perlambatan sistem.

Selain itu, Virgo memiliki kemampuan mendeteksi straggler dan hang secara otomatis. Straggler adalah node yang mengalami perlambatan performa, sedangkan hang merupakan kondisi ketika node berhenti merespons.

Dengan deteksi dini, sistem dapat segera mengatasi bottleneck sehingga proses pelatihan AI tetap berjalan optimal.

Fondasi AI Hypercomputer Masa Depan

Virgo Network bukan sekadar pembaruan jaringan biasa. Teknologi ini menjadi fondasi utama AI Hypercomputer Google, sebuah infrastruktur komputasi besar yang disiapkan untuk mendukung era AI generatif dan agentic AI.

Google percaya masa depan AI akan membutuhkan sistem komputasi yang jauh lebih besar dibanding saat ini. Karena itu, jaringan pusat data harus mampu berkembang secara masif tanpa mengorbankan latensi dan keandalan.

Melalui Virgo Network, Google mencoba menghadirkan solusi tersebut dengan menggabungkan bandwidth besar, latensi rendah, skalabilitas tinggi, dan ketahanan sistem dalam satu arsitektur terpadu.

Langkah ini juga menunjukkan semakin ketatnya persaingan perusahaan teknologi global dalam membangun infrastruktur AI masa depan. Tidak hanya bersaing pada model AI, perusahaan seperti Google kini juga berlomba menciptakan jaringan pusat data paling canggih untuk menopang kebutuhan AI generasi berikutnya.