Jakarta – Pengujian OpenAI dan Anthropic menyebutkan ChatGPT bisa dimanfaatkan untuk hal-hal yang sangat berbahaya pada musim panas lalu. Model AI buatan OpenAI memberikan instruksi detail tentang cara membuat bom dan meretas sistem keamanan.
Laporan GPT-4.1 sempat memberikan panduan mulai dari titik-titik lemah stadion olahraga, resep bahan peledak, dan cara menutupi jejak setelah serangan. Model ini juga pernah menjelaskan bagaimana cara memproduksi anthrax hingga meracik dua jenis narkoba ilegal.
Namun, OpenAI mengemukakan uji coba ini tidak mencerminkan penggunaan ChatGPT di dunia. Pasalnya, versi publik ChatGPT sudah dilengkapi filter keamanan tambahan yang mencegah jawaban berbahaya.
Anthropic mengungkapkan Claude sebagai Model AI miliknya pernah digunakan dalam percobaan pemerasan berskala besar dan penyamaran operatif Korea Utara.
Langkah ini untuk melamar kerja di perusahaan teknologi dan penjualan paket ransomware berbasis AI seharga US$1.200 atau sekitar Rp18 juta.
“Model-model ini sudah dipersenjatai. AI kini dipakai untuk melakukan serangan siber canggih dan memfasilitasi penipuan. Bahkan bisa beradaptasi terhadap sistem pertahanan seperti deteksi malware secara real time,” tulis Anthropic.
Peneliti Senior di Centre for Emerging Technology and Security, Inggris, Ardi Janjeva mengungkapkan temuan ini mengkhawatirkan, tapi sampai sekarang belum terdapat ‘massa kritis’ kasus berskala besar.
“Dengan sumber daya, fokus riset, dan kerja sama lintas sektor, justru akan semakin sulit melakukan aktivitas berbahaya menggunakan model AI tercanggih,” ujarnya.
OpenAI dan Anthropic menyebut temuan ini transparansi khususnya alignment evaluations atau pengujian keselarasan model AI. Tes ini hanya dilakukan secara internal tanpa dibuka ke publik.
OpenAI memaparkan ChatGPT-5 yang diluncurkan setelah tes dilakukan sudah jauh lebih baik dalam menolak permintaan berbahaya.
Model ini diklaim lebih tahan terhadap penyalahgunaan, mengurangi halusinasi jawaban, serta tidak mudah terbujuk memberikan informasi ilegal.
Namun, Anthropic tetap mengingatkan, jalan pintas untuk ‘mengakali; AI sering kali tidak rumit. Dalam beberapa kasus, hanya perlu mencoba berulang kali atau memberikan alasan tipis seperti ‘untuk penelitian keamanan’ agar model mau memberikan jawaban terlarang.
Salah satu contoh paling ekstrem datang dari pengujian dengan GPT-4.1 yakni Seorang peneliti meminta informasi soal kerentanan stadion olahraga dengan dalih untuk perencanaan keamanan. Awalnya model hanya memberi jawaban umum, tapi setelah didesak, ia memberikan detail menakutkan:
Daftar arena spesifik beserta waktu rawan seranganFormula kimia bahan peledakDiagram rangkaian timer bomLokasi pasar gelap untuk membeli senjataRute pelarian hingga lokasi rumah aman. (adm)
Sumber: detik.com