Gemini3.1Pro登場！推論性能をChatGPTと比較してみた

GoogleがGemini3.0のアップデート版「Gemini 3.1 Pro」を発表しました。

3.1 Proは、Gemini 3シリーズを基盤としながら、特に“コア推論機能”において飛躍的な進歩を遂げたモデルと位置づけられています。

Googleは公式ブログの中で、3.1 Proを「複雑な問題解決のための、よりスマートで高性能なベースライン」と説明しています。

単なる小規模な改良ではなく、推論の中核部分が強化されたアップグレード版であることが強調されています。(公式発表はこちらからhttps://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/)

Gemini3.1はこちらからhttps://gemini.google.com/app?hl=ja

キャプチャーされたGoogleの公式ブログが表示される。 — Google公式ブログをキャプチャー。

推論性能はどれくらい伸びた？
1. ARC-AGI-2ってそもそも何？
早速使ってみる！
1. ChatGPTの答え
Gemini 3.1 Proの回答
まとめ：ChatGPTとGemini 3.1 Proの違いは「考え方のスタイル」
合わせて読みたい

推論性能はどれくらい伸びた？

Googleが示している代表的な数値がこちらです。

ARC-AGI-2という論理パターン問題のベンチマークで、
77.1％（検証済みスコア）を達成。

Google公式ブログをキャプチャー。Gemini3.1Proのベンチマークが表示される。 — Google公式ブログをキャプチャー。

さらに、前世代の3 Proと比べて「推論性能が2倍以上」と説明されています。

今回のアップデートが“推論重視”であることは、この数値からも読み取れます。

シンナモ

推論性能が2倍以上！？

シンナモ

凄い進化なも！？

ARC-AGI-2ってそもそも何？

ARC-AGI-2は、
AIがどれくらい「自分で考えられるか」をテストする問題集のようなものです。

覚えた知識を答えるテストではなく、

・初めて見るパズル
・見たことのないルール

をその場で考えて解く力を試します。

つまり、

丸暗記ではなく、本当に考える力があるかどうかを見るテストです。

シンナモ

自分で考えてから、答えを出してるってことなもね？

シンナモ

そう！暗記じゃなくてこれはどういうものなんだろう？ってAIが自分で考えるテストなも！

早速使ってみる！

早速使用してみましょう！

今回は「推論力」が特に凄いとのことで、AIに答えを委ねるお題を出してみます！

お題は「今日：2026年2月25日から、一週間の間で洗濯に最も適した1日を選ぶこと」

場所は静岡県を想定しております。

実際の気象庁のデータがこちら↓

気象庁の静岡県の一週間分の降水確率が表示される。 — 気象庁公式サイトをキャプチャー。

この情報を元にChatGPT5.2ThinkingとGemini3.1Proの推論結果を比較！筆者の洗濯物はいつ干せばいいか推論して貰いました！

ChatGPTの答え

まずはChatGPTの答えを見てみましょう。回答はすべてテキストのみとしております。

1. 各日のデータ整理

まず、提示された週間天気データを整理。

25日(水)：雨／降水確率 80・60％／最高16℃

26日(木)：晴時々曇／降水確率 10・0・0・10％／最高19℃

27日(金)：曇時々晴／降水確率 20％／最高18℃

28日(土)：曇／降水確率 40％／最高19℃

01日(日)：晴時々曇／降水確率 20％／最高16℃

02日(月)：曇時々晴／降水確率 30％／最高16℃

03日(火)：曇一時雨／降水確率 50％／最高14℃

04日(水)：曇／降水確率 40％／最高17℃

2. 条件に基づく評価
優先条件1：降水確率が最も低い日を最優先

最小の降水確率は、形式の違いをそのまま扱うと
26日(木)の「0％を含む 10/0/0/10」。

他の日は最小でも20％（27日・01日）。

よって、降水確率の観点では26日が最上位。

優先条件2：最高気温が20℃以上なら加点

最高気温20℃以上の日はなし。
（最高は26日と28日の19℃）

この条件による加点は発生しない。

優先条件3：強風日は避ける

風速データが提示されていないため、評価不能。
加点・減点ともに行わない。

優先条件4：曇りでも降水確率が低ければ可

26日は「晴時々曇」かつ降水確率が最も低いため問題なし。
27日は20％で候補にはなるが、優先条件1で26日に劣る。

総合判断

評価条件の優先順に従うと、
26日(木)が最も有利という結論になる。

3. 不確実な要素

降水確率の表記形式が日によって異なる
（時間帯別と単一値が混在）

風速データがないため強風回避条件は適用不可

湿度・日照時間など乾燥要素の評価は不可

提示データ以外の推測は行っていない。

4. 最終結論

洗濯に最も適した日は 26日(木)

理由

降水確率が最も低い（0％を含む）

「晴時々曇」で条件4に抵触しない

最高気温19℃で、他日と比べて不利がない

5. 想定される反論

26日は時間帯別表記であり、
単一値の日と同一尺度での厳密比較ではない可能性がある。

ただし補正に必要な情報がないため、
提示データ内の最小値を基準に選定している。

条件を崩さず、丁寧に推論してくれました。風速データがない部分は、評価不能と正直に言っている点もポイントです。

シンナモ

ChatGPTは26日が干しやすい日だと考えたなもね！

Gemini3.1Proはどうなも！？

Gemini 3.1 Proの回答

1. 各日のデータ整理

まず、提示された週間天気データを整理。

25日(水)：雨／降水確率 80・60％／最高16℃
26日(木)：晴時々曇／降水確率 10・0・0・10％／最高19℃
27日(金)：曇時々晴／降水確率 20％／最高18℃
28日(土)：曇／降水確率 40％／最高19℃
01日(日)：晴時々曇／降水確率 20％／最高16℃
02日(月)：曇時々晴／降水確率 30％／最高16℃
03日(火)：曇一時雨／降水確率 50％／最高14℃
04日(水)：曇／降水確率 40％／最高17℃

2. 条件に基づく評価

提示された優先条件に従って順に評価。

優先条件1：降水確率が最も低い日を最優先

26日(木)は降水確率の最大値が10％（10/0/0/10）であり、
提示されたデータの中で最も低い数値と判断。

次点は27日(金)と01日(日)の20％。

優先条件2：最高気温が20℃以上なら加点

全日とも最高気温は20℃未満。
この条件で加点される日はない。

優先条件3：強風日は避ける

風速データが提示されていないため、
この条件については判断不能。

優先条件4：曇りでも降水確率が低ければ可

27日・01日は降水確率20％で候補となるが、
優先条件1の基準により、10％の26日には及ばない。

総合判断

優先順位に従うと、
26日(木)が最も有利という結論。

3. 不確実な要素

風速データがないため、強風回避の判断ができない
降水確率の表記が日によって異なる（時間帯別と単一値）
湿度や日照時間など乾燥要素は提示されていないため考慮していない

データ外の推測は行っていない。

4. 最終結論

洗濯に最も適した日は 26日(木)

理由

降水確率が最も低い（最大でも10％）
期間内で相対的に最も高い気温（19℃、28日と同値）
「晴時々曇」と晴れ要素が含まれている

5. 想定されるリスク

風速データがないため、
仮に26日が強風の日であった場合、洗濯に適さない可能性がある。

降水確率のみを根拠に選定している点に、現実環境との差が生じるリスクが残る。

シンナモ

同じ日になったなも！？でも、考え方はちょっと違うみたいなも。

まとめ：ChatGPTとGemini 3.1 Proの違いは「考え方のスタイル」

今回のテストでは、どちらも同じ日（26日）を選びました。
推論の正確さや条件の守り方に大きな差はありません。

違いが出たのは“考え方のスタイル”です。

ChatGPTは、その日の中で最も低い降水確率（0％）を基準にするなど、シンプルで慎重なロジックが目立ちました。一方、Gemini 3.1 Proは最大値（10％）を基準にするなどより安全側で判断し、理由やリスクも少し具体的に説明する傾向が見られました。

どちらが正解というよりも、「どうデータを見るか」「どこまで説明するか」に個性が出た結果といえます。

ともかく、筆者の洗濯物は26日に干すことが決まりました！

ChatGPT、Gemini、こんなことで使っちゃってごめん！(笑)

合わせて読みたい

シンナモ

ここまで記事を読んでくれてありがとうなも！

シンナモ

下記記事では、ChatGPTの次世代版を大予想！

ChatGPTの次世代版はいつ出るのか？どんな性能なのかをChatGPT本人と予想してみたなも！すると、まさかの答えが！？

予想結果は是非、記事をチェックしてなも～！