Bukan ChatGPT, Tes IQ Ungkap Daftar AI Paling Pintar di Dunia

1 hour ago 2

Daftar Isi

Jakarta, CNBC Indonesia - Persaingan di ranah kecerdasan buatan (Artificial Intelligence/AI) makin memanas dan melesat jauh lebih cepat dari perkiraan siapa pun. Setiap bulan, perusahaan teknologi besar maupun pengembang independen merilis pembaruan model yang semakin cerdas, semakin canggih, dan semakin mendekati kemampuan berpikir logis manusia.

Salah satu tolok ukur yang paling sering digunakan untuk melihat kemampuan penalaran dan kecerdasan umum AI adalah tes yang menyerupai tes IQ manusia. Berdasarkan data terbaru dari lembaga pemeringkat independen TrackingAI, yang dipublikasikan dalam laporan AI Week oleh Visual Capitalist per April 2026, kini ada dua nama besar yang berbagi takhta sebagai AI dengan skor IQ tertinggi di dunia.

Kedua model tersebut adalah Grok-4.20 Expert Mode buatan xAI milik Elon Musk, dan OpenAI GPT-5.4 Pro (Vision). Keduanya sama-sama mencetak skor tertinggi yaitu 145 dalam pengujian standar yang mengacu pada tes IQ Mensa Norway. Angka ini menempatkan keduanya setara dengan manusia yang memiliki kecerdasan di atas rata-rata, bahkan mendekati kategori jenius jika diukur menggunakan standar manusia.

Peringkat ketiga ditempati oleh pesaing terdekat mereka, Gemini 3.1 Pro Preview milik Google, yang mencatatkan skor 141, selisih yang cukup tipis tetapi tetap terlihat dalam penilaian terperinci.

Berikut adalah daftar lengkap peringkat skor IQ berbagai model AI yang diuji, mulai dari yang tertinggi hingga terendah:

Grok-4.20 Expert Mode - 145
OpenAI GPT-5.4 Pro (Vision) - 145
Gemini 3.1 Pro Preview - 141
OpenAI GPT-5.4 Thinking (Vision) - 139
OpenAI GPT-5.3 - 136
Grok-4.20 Expert Mode (Vision) - 133
OpenAI GPT-5.4 Thinking - 133
Meta Muse Spark - 133
Gemini 3.1 Pro Preview (Vision) - 132
Qwen 3.5 - 130
Claude 4.6 Opus - 130
Kimi K2.5 - 127
Manus - 115
DeepSeek R1 - 112
DeepSeek V3 - 111
Gemini 3.1 Flash - 110
Llama 4 Maverick - 110
GPT-5.3 (Vision) - 109
Claude 4.6 Sonnet - 106
Bing Copilot - 101
Perplexity - 97
Mistral Medium 3.1 - 96
Claude 4.6 Sonnet (Vision) - 94
Claude 4.6 Opus (Vision) - 82
Llama 4 Maverick (Vision) - 79
GPT-5.4 Pro (non-vision) - 73

Apa yang Diukur dalam Tes Ini?

Metode pengujian yang digunakan oleh TrackingAI mengadopsi standar tes IQ Mensa Norway, yang dikenal sebagai salah satu tes penalaran non-verbal paling terpercaya. Tes ini terdiri dari 35 soal teka-teki pola visual, yaitu peserta harus mengidentifikasi pola, hubungan logis, dan kelanjutan urutan bentuk atau gambar. Tes ini dirancang khusus untuk mengukur kemampuan penalaran abstrak, pemecahan masalah, dan kemampuan memahami hubungan antara konsep dan kemampuan yang dianggap sebagai inti dari kecerdasan umum.

Namun, ada perbedaan penting dalam cara penyampaian soal kepada setiap model AI, tergantung kemampuan teknologinya:

Model berbasis Vision (Penglihatan): Model yang memiliki kemampuan membaca dan memahami gambar, seperti GPT-5.4 Pro Vision atau Gemini 3.1, diberikan soal dalam bentuk gambar asli persis seperti yang dikerjakan manusia. Mereka harus menganalisis bentuk visual dan menjawabnya.
Model non-Vision: Model yang hanya bekerja berbasis teks, mendapatkan versi soal yang sama namun diterjemahkan ke dalam bentuk deskripsi kata-kata atau teks tertulis.

Hasil yang terlihat dalam daftar di atas sangat menarik karena menunjukkan bahwa kemampuan "melihat" dan memahami gambar tidak otomatis menjamin skor tinggi. Bahkan terlihat jelas perbedaan besar antara varian yang sama: contohnya, GPT-5.4 Pro versi Vision mendapatkan skor 145, sedangkan versi non-Vision-nya hanya mendapat skor 73. Hal ini membuktikan bahwa pemahaman visual dan kemampuan mengolah informasi langsung dari gambar menjadi faktor kunci peningkatan kecerdasan logis AI generasi terbaru ini.

Lompatan Besar Performa AI dalam Setahun Terakhir

Data yang dirilis TrackingAI juga menyoroti perkembangan yang sangat mengagumkan hanya dalam kurun waktu satu tahun. Jika melihat kembali data pengujian pada tahun 2025 lalu, skor IQ tertinggi yang pernah dicapai oleh model AI terbaik dunia saat itu hanya berada di angka 135.

Artinya, dalam waktu kurang dari 12 bulan, batas tertinggi kecerdasan AI melonjak naik sebesar 10 poin, mencapai angka 145 di tahun 2026. Kenaikan ini menunjukkan adanya terobosan besar dalam arsitektur pembelajaran mesin (machine learning), peningkatan kapasitas pemrosesan data, serta penyempurnaan metode pelatihan yang membuat AI makin mahir dalam berpikir logis dan analitis.

Skor 145 sendiri, jika disandingkan dengan standar manusia, berada di persentil atas. Rata-rata skor IQ manusia berada di kisaran 85 hingga 115. Skor di atas 130 biasanya dikategorikan sebagai kecerdasan luar biasa atau jenius. Artinya, AI papan atas saat ini secara teori memiliki kemampuan penalaran logis yang setara atau bahkan melebihi mayoritas manusia.

Grok-4.20 vs GPT-5.4 Pro

Meskipun keduanya sama-sama mendapat nilai sempurna 145, Grok-4.20 Expert Mode dan GPT-5.4 Pro memiliki pendekatan dan keunggulan yang berbeda.

Grok-4.20 Expert Mode dikenal dengan kemampuannya mengakses data secara real-time dan cara berpikir yang lebih lugas, kadang berani, dan sangat terstruktur. Model ini dikembangkan dengan tujuan meniru cara berpikir manusia yang analitis tetapi tetap dengan karakter. Dalam tes pola, Grok terbukti sangat cepat mengenali hubungan sebab-akibat dan pola tersembunyi.
OpenAI GPT-5.4 Pro (Vision) memiliki keunggulan dalam pemahaman konteks yang sangat panjang dan mendalam. Kemampuan visinya dianggap paling matang saat ini; ia tidak hanya melihat gambar, tetapi mampu menganalisis detail terkecil, memahami diagram, grafik, hingga tulisan tangan. Kekuatannya terletak pada kemampuan menghubungkan informasi visual dengan pengetahuan umum yang sangat luas.

Sementara itu, Gemini 3.1 Pro Preview milik Google yang berada di posisi ketiga dengan skor 141, memiliki keunggulan di bidang pemrosesan data multi-modal dan integrasi dengan layanan Google, tetapi sedikit tertinggal dalam hal kecepatan penalaran abstrak murni dibandingkan dua pesaing utamanya.

Skor IQ Bukan Segalanya: Apa yang Tidak Diukur Tes Ini?

Meskipun peringkat ini menarik dan memberikan gambaran seberapa pintar AI dalam berpikir logis, TrackingAI dengan tegas mengingatkan bahwa skor IQ bukanlah ukuran mutlak kecerdasan buatan secara keseluruhan. Kecerdasan AI jauh lebih luas dan kompleks daripada sekadar kemampuan memecahkan teka-teki pola.

Ada banyak kemampuan krusial lainnya yang tidak diuji dalam tes IQ ini, tetapi sangat menentukan kualitas sebuah AI untuk penggunaan nyata, antara lain:

Kemampuan Pemrograman (Coding): AI mungkin memiliki IQ tinggi, tetapi bisa saja lemah dalam menulis kode yang benar, efisien, dan bebas kesalahan. Model seperti Claude atau DeepSeek sering kali lebih diunggulkan dalam hal ini meski skor IQ-nya di bawah Grok atau GPT.
Akurasi Fakta: Skor tinggi tidak menjamin AI tidak akan memberikan informasi palsu atau keliru (halusinasi). Ada model dengan skor IQ lebih rendah yang jauh lebih akurat dalam menjawab pertanyaan berbasis pengetahuan.
Penggunaan Alat (Tool Use): Kemampuan AI untuk terhubung ke internet, membaca dokumen eksternal, atau menggunakan perangkat lunak lain adalah fitur vital yang tidak dinilai dalam tes ini.
Konteks dan Kreativitas: Kemampuan bercerita, menulis puisi, memahami nuansa bahasa, atau bernegosiasi adalah aspek kecerdasan lain yang sama pentingnya namun tidak tercermin dalam angka 145 tersebut.
Konsistensi: Beberapa model dengan skor tinggi kadang tidak konsisten jawabannya jika diberi pertanyaan serupa berulang kali, sedangkan model dengan skor sedikit lebih rendah bisa jauh lebih stabil.

Peningkatan skor IQ dari 135 menjadi 145 dalam satu tahun menjadi bukti bahwa pengembangan AI belum mencapai titik jenuh. Para ahli memprediksi bahwa pada tahun-tahun mendatang, kita akan melihat angka ini terus meningkat, bahkan mungkin menembus angka 150, seiring dengan ditemukannya cara kerja model yang lebih efisien dan cerdas.

(dem/dem)

Add