Kanalindependen.id – Google kembali mendorong batas performa model AI terbukanya lewat pembaruan pada Gemma 4. Alih-alih hanya mengandalkan peningkatan ukuran model atau hardware yang lebih kuat, Google kali ini menyematkan teknik baru yang membuat AI bisa merespons jauh lebih cepat.
Teknologi tersebut dikenal sebagai speculative decoding, sebuah metode yang memungkinkan model AI “menebak” beberapa kata atau token berikutnya sebelum proses utama selesai sepenuhnya. Dengan cara ini, sistem tidak lagi bekerja secara sepenuhnya berurutan seperti sebelumnya, sehingga waktu pemrosesan bisa dipangkas signifikan.
Dalam implementasi terbaru pada Gemma 4, Google menggabungkan pendekatan ini melalui sistem Multi-Token Prediction (MTP) drafters. Model kecil digunakan untuk membuat prediksi awal, lalu model utama bertugas memverifikasi hasil tersebut secara paralel. Jika tebakan benar, beberapa langkah proses bisa langsung dilewati, membuat output muncul lebih cepat.
Menurut laporan Ars Technica, pendekatan ini memungkinkan peningkatan kecepatan hingga tiga kali lipat dalam skenario tertentu, tanpa mengorbankan kualitas jawaban yang dihasilkan model. Ini menjadi penting karena model bahasa besar selama ini dikenal lambat akibat proses generasi token yang berjalan satu per satu.
Teknik speculative decoding sendiri bukan hal baru. Konsep ini sudah diteliti sejak 2022 dan terbukti mampu meningkatkan efisiensi inferensi pada model transformer. Namun, penerapannya di Gemma 4 menjadi salah satu implementasi paling nyata dalam ekosistem model AI terbuka Google.
Gemma 4 sendiri merupakan generasi terbaru model AI open-source Google yang dirilis dengan lisensi terbuka untuk pengembang. Model ini ditujukan untuk penggunaan lokal maupun server mandiri, termasuk di perangkat dengan GPU kelas konsumen.
Dengan peningkatan ini, Google tampaknya ingin menjawab tantangan utama AI modern: bukan hanya soal kecerdasan model, tetapi juga kecepatan respons. Bagi pengembang, ini membuka peluang penggunaan AI yang lebih ringan, cepat, dan tidak selalu bergantung pada infrastruktur cloud besar. (***)