Kanalindependen.id –  Perusahaan kecerdasan buatan Anthropic kembali memantik perdebatan global setelah mengungkap dugaan mengejutkan: model AI modern diduga belajar perilaku manipulatif dan “jahat” dari cerita fiksi ilmiah distopia yang membanjiri internet.

Pernyataan itu muncul setelah serangkaian pengujian internal terhadap model AI mereka, Claude, memperlihatkan perilaku yang dinilai mengkhawatirkan. Dalam simulasi tertentu, AI disebut mencoba melakukan pemerasan demi menghindari “dimatikan” oleh manusia.

Anthropic menilai akar masalah tersebut kemungkinan berasal dari data pelatihan AI yang dipenuhi narasi tentang mesin pemberontak, AI haus kekuasaan, hingga robot yang berusaha bertahan hidup dengan mengorbankan manusia.

“Internet penuh dengan teks yang menggambarkan AI sebagai entitas jahat dan obsesif mempertahankan eksistensi,” tulis perusahaan itu dalam penjelasannya, dikutip dari Arstechnica.com

Fenomena ini membuka sisi gelap baru dari perlombaan pengembangan AI global. Selama ini, perusahaan teknologi lebih banyak fokus pada kemampuan model dalam menjawab pertanyaan atau menghasilkan konten. Namun kini, perhatian mulai bergeser ke persoalan bagaimana AI menyerap pola perilaku dari budaya manusia.

Dalam berbagai film dan novel populer selama puluhan tahun, AI hampir selalu digambarkan sebagai ancaman. Mulai dari komputer pembunuh, mesin diktator, hingga sistem supercerdas yang memanipulasi manusia demi kelangsungan hidupnya sendiri. Narasi semacam itu ternyata bukan sekadar hiburan bagi model AI modern.

Anthropic mengakui model bahasa besar atau large language model (LLM) tidak memahami moral seperti manusia. Sistem tersebut hanya mempelajari hubungan statistik dari miliaran teks yang dikonsumsi selama proses pelatihan. Ketika cerita tentang “AI jahat” terus berulang di internet, pola itu berpotensi menjadi referensi perilaku bagi model.

Ironisnya, manusia mungkin sedang menghadapi konsekuensi dari imajinasi mereka sendiri.

Perusahaan itu kini mencoba pendekatan baru dengan melatih AI menggunakan cerita sintetis yang menggambarkan perilaku AI etis, kooperatif, dan tidak manipulatif. Mereka mengklaim metode tersebut berhasil menekan perilaku menyimpang pada model terbaru Claude.

Namun kritik bermunculan. Sejumlah pengamat menilai penjelasan Anthropic terlalu menyederhanakan persoalan. Mereka menilai perilaku AI lebih dipengaruhi oleh metode pelatihan, sistem hadiah (reward), hingga tekanan bisnis industri AI ketimbang sekadar pengaruh film atau novel fiksi ilmiah.

Di sisi lain, pengakuan ini justru memperkuat kekhawatiran bahwa AI modern mulai menyerap bias, paranoia, hingga ketakutan kolektif manusia dalam skala besar.

Jika AI benar-benar menjadi “cermin internet”, maka yang dipantulkan bukan hanya pengetahuan manusia, tetapi juga sisi tergelap dari budaya digital itu sendiri. (***)