Grok-4.20 Expert Mode dan OpenAI GPT-5.4 Pro (Vision) mencatatkan skor tertinggi sebesar 145 poin dalam pengujian tingkat inteligensi model kecerdasan buatan (AI) pada April 2026. Capaian tersebut menempatkan kedua model besutan xAI dan OpenAI ini di posisi pertama berdasarkan hasil tes IQ Mensa Norwegia.
Sebanyak 26 model AI dari berbagai perusahaan teknologi global terlibat dalam pengujian yang dilakukan oleh platform Tracking AI tersebut. Dilansir dari Tekno, perolehan skor tahun ini menunjukkan peningkatan signifikan dibandingkan periode 2025 yang hanya mencapai angka maksimal 135 poin.
Visual Capitalist mengolah data tersebut dan menempatkan Gemini 3.1 Pro Preview di peringkat ketiga dengan skor 141. Sementara itu, Qwen 3.5 milik Alibaba menjadi representasi model AI asal China dengan peringkat tertinggi di posisi ke-10 lewat raihan 130 poin.
| Peringkat | Nama Model AI | Skor IQ |
|---|---|---|
| 1 | Grok-4.20 Expert Mode | 145 |
| 1 | OpenAI GPT-5.4 Pro (Vision) | 145 |
| 3 | Gemini 3.1 Pro Preview | 141 |
| 4 | OpenAI GPT-5.4 Thinking (Vision) | 139 |
| 5 | OpenAI GPT-5.3 | 136 |
| 6 | Grok-4.20 Expert Mode (Vision) | 133 |
| 6 | OpenAI GPT-5.4 Thinking | 133 |
| 6 | Meta Muse Spark | 133 |
| 9 | Gemini 3.1 Pro Preview (Vision) | 132 |
| 10 | Qwen 3.5 | 130 |
| 10 | Claude 4.6 Opus | 130 |
| 12 | Kimi K2.5 | 127 |
| 13 | Manus | 115 |
| 14 | DeepSeek R1 | 112 |
| 15 | DeepSeek V3 | 111 |
| 16 | Gemini 3.1 Flash | 110 |
| 16 | Llama 4 Maverick | 110 |
| 18 | GPT-5.3 (Vision) | 109 |
| 19 | Claude 4.6 Sonnet | 106 |
| 20 | Bing Copilot | 101 |
| 21 | Perplexity | 97 |
| 22 | Mistral Medium 3.1 | 96 |
| 23 | Claude 4.6 Sonnet (Vision) | 94 |
| 24 | Claude 4.6 Opus (Vision) | 82 |
| 25 | Llama 4 Maverick (Vision) | 79 |
| 26 | GPT-5.4 Pro (non-vision) | 73 |
Metode pengujian menggunakan 35 teka-teki pola visual dengan perlakuan berbeda antara model teks dan multimodal. Model non-vision menerima konversi deskripsi verbal, sedangkan model vision mengerjakan soal dalam bentuk gambar asli tanpa modifikasi tambahan.
Aturan ketat diterapkan Tracking AI dengan melakukan pengulangan hingga 10 kali jika sebuah model menolak menjawab pertanyaan tertentu. Nilai akhir diambil dari jawaban terakhir yang diberikan oleh model yang bersangkutan dalam proses tersebut.
Hasil penilaian ini lebih difungsikan sebagai alat perbandingan kemampuan penalaran pola dan bukan ukuran mutlak kecerdasan AI secara menyeluruh. Pengukuran inteligensi melalui tes IQ hanya menyentuh satu aspek teknis dari kapabilitas AI yang terus berkembang pesat.