Artificial Analysis社のリーダーボード(344モデル対象)によると、知性指数(Intelligence Index)のトップは以下の通りです:
| 順位 | 代表モデル | 開発元 | ティア | 種別 | スコア | コンテキスト |
|---|---|---|---|---|---|---|
| 1 | GPT-5.5 | OpenAI | S | 商用 | 60 | 128K |
| 2 | Claude Opus 4.7 | Anthropic | S | 商用 | 57 | 1M |
| 3 | Gemini 3.1 Pro | S | 商用 | 57 | 2M | |
| 4 | Kimi K2.5 | Moonshot | S | OSS | 54 | 1M |
| 5 | DeepSeek V3.2 | DeepSeek | S | OSS | 53 | 128K |
| 6 | GLM-5 | Zhipu AI | S | OSS | 52 | 128K |
| 7 | Grok 4.1 Fast | xAI | A | 商用 | 46 | 128K |
| 8 | Qwen 3.5 | Alibaba | A | OSS | 48 | 128K |
| 9 | Mistral Large | Mistral | A | OSS | 44 | 128K |
| 10 | Llama 4 Maverick | Meta | B | OSS | 41 | 1M |
ティア(Tier)とは、性能レベルを段階的にランク分けしたグループのことです。もともとゲームや競技の世界で使われていた概念で、AI評価でも広く使われるようになっています。
今回の表では3段階で分類しています。
Sティア(最高クラス) “Special”や”Superior”の頭文字で、通常のAランクを超える最上位グループです。GPT-5.5・Claude Opus 4.7・Gemini 3.1 Pro・Kimi K2.5・DeepSeek V3.2・GLM-5が該当します。最先端のベンチマークで突出した性能を示すモデルが分類されます。
Aティア(高性能クラス) Sティアには届かないものの、実用上十分に高い性能を持つグループです。Grok 4.1 Fast・Qwen 3.5・Mistral Largeが該当します。コストや速度とのバランスが良いモデルが多いのが特徴です。
Bティア(標準クラス) 実用的な性能は持ちつつも、上位モデルと比べると差があるグループです。今回の表ではLlama 4 Maverickが該当します。
ざっくり言うと「S>A>B」の順で性能が高く、同じティア内のモデルは大きな性能差がないというイメージで見ると分かりやすいです。
コンテキスト(Context)とは、AIが一度の会話で読み込める情報量の上限のことです。
人間の「作業机」に例えると分かりやすいです。机が広いほど一度にたくさんの資料を広げて作業できますが、机が狭いと資料を入れ替えながら作業しなければなりません。コンテキストウィンドウはまさにこの「机の広さ」です。
1位 GPT-5.5(OpenAI)
ChatGPTはOpenAIが2022年11月にリリースした対話型AIアシスタントです。公開からわずか2ヶ月でユーザー数1億人を突破し、史上最速で普及したサービスの一つとして知られています。
主な特徴を4つのポイントで:
1. プランの種類 無料版(GPT-4o mini)から有料のPlus(月20ドル)、Pro(月200ドル)まで段階的なプランがあります。有料プランほど高性能なモデルや多くの機能が使えます。
2. マルチモーダル対応 テキストだけでなく、画像・音声・ファイル(PDF・ExcelなどF)の入力にも対応しています。音声モードではリアルタイムで自然な会話ができます。
3. カスタマイズ性 「カスタムGPT」機能で、特定の用途に特化した自分だけのAIアシスタントを作成・公開できます。GPTストアには他のユーザーが作ったGPTも多数公開されています。
4. 幅広いツール連携 コード実行、画像生成(DALL-E)、Web検索、データ分析などが一つのインターフェース上で使えます。また、外部サービスとの連携(プラグインやActions)にも対応しています。
2位 Claude Opus 4.7(Anthropic)
知性指数57で3位タイ。 Claude Opus 4.6はSWE-benchで75.6%、コンテキストウィンドウ100万トークン(ベータ)、128K出力に対応し、開発者向けツールの技術的リーダーとされる。 人間の好みを測るGDPval-AAリーダーボードでは1,606 Eloでトップを獲得。
主な特徴を4つのポイントで:
1. 長文処理 最大200万トークンのコンテキストウィンドウ(Gemini 3.1 Pro)には及びませんが、最大100万トークン(Opus 4.7)と業界トップクラスです。長い契約書・論文・コードベースを丸ごと読み込んで分析できます。
2. 誠実さ・正直さ わからないことは「わからない」と答え、ユーザーに迎合しすぎない設計になっています。これはAnthropicが「有益・無害・誠実」を設計原則に掲げているためです。
3. 文章の質 ビジネス文書、創作、要約、翻訳など言語タスクの自然さに定評があります。日本語の精度も高く、日本語ユーザーからの評価も高いです。
4. コーディング能力 SWE-benchなどのコーディングベンチマークで高スコアを記録しており、エンジニアの利用も多いです。Claude Codeというコマンドラインツールも提供されています。
5. 安全性設計 Constitutional AI(憲法的AI)という独自の手法で訓練されており、有害コンテンツの生成を避けながらも、過剰に制限しすぎないバランスを追求しています。
3位 Gemini 3.1 Pro(Google)
2月19日にリリースされ、16のベンチマーク中13項目でトップスコアを記録。ARC-AGI-2(論理・問題解決力テスト)では77.1%を達成し、前世代のGemini 3 Proの2倍以上の推論性能を発揮。 価格はGemini 3 Proと同じ$2/$12で、コストパフォーマンスが際立つ。
主な特徴を4つのポイントで:
1. Googleサービスとの深い連携 Gmail・Googleドキュメント・スプレッドシート・Meet・カレンダーなど、普段使いのGoogleサービスと直接連携できます。「このメールに返信して」「スプレッドシートのデータを分析して」といった操作がシームレスにできるのはGemini独自の強みです。
2. 業界最大のコンテキストウィンドウ Gemini 3.1 Proは最大200万トークンのコンテキストウィンドウを持ち、現時点で業界最大級です。非常に長い文書・動画・音声ファイルも丸ごと処理できます。
3. マルチモーダル対応の幅広さ テキスト・画像・音声・動画・PDFなど多様な入力に対応しています。YouTubeの動画を直接読み込んで要約するといった使い方もできます。
4. プランの種類 無料版から有料のGemini Advanced(Google One AI Premiumプラン、月約2,900円)まで選べます。有料版はGoogleの全サービスとの統合がより深くなります。
4位 Grok 4(xAI)
コーディングベンチマークSWE-benchでは75%でトップスコア。X(旧Twitter)のリアルタイムデータと連携しており、最新情報の検索に強みがあります。
5位 DeepSeek V4 Pro(DeepSeek)
オープンウェイト(公開モデル)の中では上位に位置し、知性指数52を記録。 QA・推論・数学・エージェント系ベンチマークでは高評価だが、応答速度(レイテンシ)の面で課題があります。
6位 Kimi K2(Moonshot AI / 中国)
オープンウェイトモデルの中では最高位の知性指数54を誇る。 1兆パラメータのMixture-of-Experts(MoE)アーキテクチャを採用し、中国がトップレベルのAI競合国であることを証明しています。
注目株 Meta Llama 4 Scout(Meta)
純粋な推論スコアでは上位モデルに及ばないが、業界最大となる1,000万トークンのコンテキストウィンドウを持ち、大規模データ処理においてゲームチェンジャーとなっています。オープンソースで利用可能。
Gemini/chatGPT/Claude比較
開発元 3社ともビッグテック・AI企業ですが、出自が異なります。GoogleはAI研究の老舗、OpenAIはAI専業のスタートアップ、AnthropicはOpenAIから独立した安全性重視の企業です。
最大コンテキスト 一度に処理できる文章量の上限です。Geminiが200万トークンと最大で、長い文書や動画の処理に有利です。Claudeの100万トークンがそれに続き、ChatGPTの128Kは3つの中では最小ですが、一般的な用途では十分な量です。
Google連携 GmailやGoogleドキュメントなどとの連携度です。Geminiは当然ながら◎で、ChatGPTとClaudeは限定的な連携にとどまります。普段からGoogleサービスを使っている方にとってはGeminiが有利な点です。
画像生成 GeminiはImagen、ChatGPTはDALL-Eという自社の画像生成モデルを搭載しています。Claudeは現時点で画像生成機能を持っていません(画像を読み込む・分析することは可能です)。
強み 3サービスそれぞれの得意領域です。用途によって使い分けるのが一番賢い使い方で、「Googleサービスと連携したいならGemini」「幅広い用途に使いたいならChatGPT」「文章の質や誠実さを重視するならClaude」というイメージです。
| 項目 | Gemini | ChatGPT | Claude |
|---|---|---|---|
| 開発元 | OpenAI | Anthropic | |
| 最大コンテキスト | 200万トークン | 128Kトークン | 100万トークン |
| Google連携 | ◎ 深い | △ 限定的 | △ 限定的 |
| 画像生成 | ◎ Imagen搭載 | ◎ DALL-E搭載 | × なし |
| 強み | Google連携・長文 | 汎用性・普及率 | 誠実さ・文章品質 |
まとめ
2026年は「1つのモデルが全てを支配する」時代ではなく、用途ごとの専門化が進んでいる。コーディングならGrok・Claude、推論・研究ならGemini、自然な文章生成ならClaude、リアルタイム情報ならGrokが得意とされています。 GuruSup
