主要生成AIの違いを明らかに -ChatGPT、Gemini、Claude3を自己/競合比較調査させ、その違いを見える化・評価-

はじめに

ChatGPTをはじめとする生成AIの話題は日々多くのところで目にする。とはいえ、少し触れてみたもののそれ以上は深く使いこなしていないという人が多いのは実際のところではないだろうか。

さて、昨今の生成AIの中で最も認知度が高いのがChatGPTであることは疑いの余地はない。多くの人にとって生成AI ≒ ChatGPTと言っても過言でないだろう。しかし実際は、生成AIと言っても色々なものがある。生成AIの中に対話型や画像生成などのタイプ分類がなされ、さらに対話型の中にChatGPTなどが分類されるというのが正しい分類である。

生成AI分類

生成AI ≒ ChatGPTと目される昨今において、ChatGPT以外にも様々な対話型生成AIが誕生している。そこで、ChatGPTのライバルと目されるGemini(旧Bard)Claude3を比較し、それぞれの出力内容を紹介したい。

この紹介を通じて、「ChatGPTでは少し満足できなかったけれども○○だったら期待通りの使い方ができそう」や「やっぱりChatGPTが一番良い」と気づきを得、ビジネスシーンなどで生成AIを引き続き有効活用するきっかけとなれば幸いだ。

生成AIの比較調査に当たって

比較対象は、OpenAI社が提供しているChatGPT3.5、ChatGPT4、Alphabet社が提供しているGemini、Anthropic社が提供しているClaude3の4つ。

また、4つを比較するに当たり、入力プロンプトは下記の通りとした。その出力項目や出力内容の正誤、見た目・情報充実度について評価する。

生成AIのChatGPT3.5、ChatGPT4、Gemini、Claude3の比較表を作成して。

プロンプトからもわかるように、依頼内容は「比較表を作成」のみであり、具体的に表に記載する項目は具体的にしていない(どのような項目・基準で比較しているかも評価の1つとした)。また、それぞれ拡張機能などは追加せず、プレーンな状態なままのものを比較することとしている。なお、出力結果は常に同じではないため、2024年4月時点での内容に基づいて比較・評価している点は了承願いたい。

プロンプト出力結果

では、上記のプロンプトの出力結果を個別に紹介する。

ChatGPT3.5

ChatGPT3.5では比較表の下に、2行の補足がついている。「それぞれのモデルにはさらに多くの詳細があります」とあるように、バージョン毎に違いがあることが理解できる。

なお、ChatGPT3.5はClaude3を大変高評価していることも理解できる。自社の優位性を強調するわけでなく、客観的な評価ができている。

ChtGPT3.5出力結果

ChatGPT4

ChatGPT3,5とくらべて、補足コメントが各モデルの違いをモデル単位で紹介されており、表だけではつかみにくい特徴がわかりやすいと評価できる。

だが、出力した項目に紐づく結果が似通っていて、「比較」という観点では「違い」よりも「似ている」という気づきを得られる結果には少々不満である。

ChtGPT4出力結果

Gemini

回答案が3つも提示されている点が大きな特徴である。ユーザは出力結果3つを見比べることができる。また、特徴、活用例が文章形式で記載されていて、情報が充実しているという点も特徴として挙げられる。さらに、引用元のURLが記載されていることから、情報の正誤確認がしやすいという点は非常に好ましい。

Gemini出力結果

Claude3

上記3モデルの中で最もシンプルな見た目が特徴だ。とはいえ、出力項目は、開発企業や速度、料金など基本を外しておらず、項目の選択センスは4つの中で最も的確(=一般的)だと評価できる。

Claude3出力結果

出力項目比較

上記各画像を確認すると分かる通り、出力項目がそれぞれ異なっている。具体的にそれぞれ対話型生成AIがどのような項目を挙げているか下表にまとめた。

なお出力時点で3案出したGeminiについては、回答案1に基づいて比較を行っている。

表から、それぞれが全く別の基準で比較していることが理解できる。4モデルの間で、2つ以上項目が重複しているのは「モデルサイズ」など5つにとどまる。

このように、比較項目を指定しないと、全く異なる基準でそれぞれが比較すること、もっというとOpenAI社が提供しているChatGPT3.5とChatGPT4ですら異なる項目で比較するということがわかるだろう。

ChatGPT3.5ChatGPT4Gemini(回答案1)Claude3
モデルサイズ
訓練データの量
タスク多様性
ファインチューニング
事前な対話能力
文章理解
精度
発展性
リリース時期
主な用途
言語サポート
技術的特徴
適用用途・活用例
開発企業
処理方式
主な長所
無料版有無
有料版有無
学習データ
言語モデル
マルチモーダル
コンテキストウィンドウ
推論速度
API提供
価格(for API)

次は、2つ以上重複している項目について、各生成AI間で出力内容に違いがないかを確認する。なお、表の縦列が検証対象となっている生成AIで横列が縦列に対する出力結果を示す。

モデルサイズの比較

モデルサイズについて比較したのが下の表である。

ChatGPT3.5、ChatGPT4、Geminiの間でChatGPT3.5に関するデータは一致しているものの、それ以外については全くのバラバラだ。

ChatGPT3.5ChatGPT4Gemini(回答案1)Claude3
ChatGPT3.5175 billion parameters175 billion parameters500 billion parameters10 trillion parameters
ChatGPT4約175億パラメータ約2400億パラメータ約数百億パラメータ約1,000億パラメータ
Gemini(回答案1)175B1000B137B1.3B

リリース時期の比較

リリース時期を出力したChatGPT4とGeminiとの間ではChatGPT3.5のリリース時期がかろうじて重なっている・近いと判断できるものの、それ以外については乖離が大きい。

ChatGPT3.5ChatGPT4Gemini(回答案1)Claude3
ChatGPT42022年中頃2023年初頭2023年2023年
Gemini(回答案1)2022年11月2023年11月2024年3月2024年3月

適用用途・活用例の比較

ChatGPT4と比べGemini(回答案1)のほうが用途をたくさん挙げている。

ChatGPT3.5ChatGPT4Gemini(回答案1)Claude3
ChatGPT4会話
文章校正
教育
会話
文章校正
教育
プログラミング
会話
文章校正
教育
会話
文章校正
教育
プログラミング
Gemini(回答案1)– 文章生成
– コード生成
– 台本生成
– 音楽作品生成
– 翻訳
– 要約
– 問答
– チャットボット
– 文章生成
– コード生成
– 台本生成
– 音楽作品生成
– 翻訳
– 要約
– 問答
– チャットボット
– 文章生成
– 画像・音声生成
– 翻訳
– 要約
– 問答
– チャットボット
– コード生成
– 文章生成
– 提案
– 要約
– 問答
– チャットボット

開発企業の比較

Gemini、Claude3ともにChatGPTの開発元に誤りはないが、GeminiはClaude3の開発元を、Claude3はGeminiの開発元をそれぞれ誤っている。

ChatGPT3.5ChatGPT4Gemini(回答案1)Claude3
Gemini(回答案1)OpenAIOpenAIGoogle AIScale AI
Claude3OpenAIOpenAIOpenAIAnthropic

主な長所の比較

GeminiがClaude3に比べてそれぞれの長所を細かく示していて、ChatGPT4はChatGPT3.5の高性能版であることが理解できる。

ChatGPT3.5ChatGPT4Gemini(回答案1)Claude3
Gemini(回答案1)– 高い文章生成能力
– 詩、コード、台本、音楽作品など様々な形式のテキスト生成が可能
– ChatGPT3.5よりもさらに高性能な文章生成能力
– 長文の文章生成や複雑なタスクにも対応
– 高い安全性と倫理性を備えている
– マルチモーダル対応: テキストだけでなく、画像や音声も理解し、生成することが可能
– 高い日本語処理能力: 日本語特有の表現やニュアンスを理解した自然な文章生成が可能
– 高い提案力: 文脈を理解した上で、独創的なアイデアや提案を行うことができる
– 高い処理速度: 他のモデルと比べて高速に処理を行うことができる
Claude3広範囲な一般知識認識・理解力が高い柔軟なコントロール安全性が高い

各生成AIの出力結果評価

最後に簡単に各生成AIに主観的な評価をする。○は高評価、△は並、Xは低評価とする。「出力項目」については、ChatGPT4が他に比べて少々劣っているという評価を下した。理由はモデル間の違いが選定した項目だと浮かび上がってこなかったからである。「出力内容正誤」はモデルサイズや開発企業など公知情報において、どのモデルも完璧な正しい出力ができなかったことから、すべてをXに近い△と評価した。最後に「見た目・情報充実度」については、Geminiに軍配を与えたい。情報量が豊富なことと、引用元が紹介されているのがその理由である。

結果的に、○が1つは含まれている、GeminiやClaude3のほうが、今回の調査からは生成AIの代表格と目されるChatGPTよりも良い評価を下すことができた。

とはいえ、冒頭で記載した通り、出力時点での話であり生成AIは時々刻々との進化を続けていること、一時の評価が永続する訳では無いなど、生成AI間でもその評価は今後も上下するだろう。

ChatGPT3.5ChatGPT4Gemini(回答案1)Claude3
出力項目X
出力内容正誤
見た目・情報充実度

まとめ​​

調査から、比較項目を指定しなかったために、表示される比較項目が異なるだけでなく、出力結果も異なる部分が多いということがわかった。

確かに、生成AIの正確性についてはまだ信頼性が高いと言えないのは事実である。とはいえ、目的を満たすために出力項目を自分で考えて、調査を人力でこなすのは時間がかかるのは事実である。正確性とスピードを天秤にかけて生成AIを使うことはまだ続くだろう。こうした不便さがあったとしても、生成AIは今後進化していくだろう。そしてその進化は、何よりもユーザーの利用がAIの学習を後押しし、その精度を高めていくものである。であれば、新技術を避けるのではなく、その技術を進化させる一員として貢献し、その先の便益を享受するのがAIユーザーの付き合い方だと言いたい。

新技術を避けるのではなく、その進化の一員として参加し、その便益を享受すべく生成AIを活用することをおすすめしたい。

ボーダーゼロのレポート一覧


ボーダーゼロによる生成AIを用いた支援

ChatGPTを始めとした生成AIの基本的な使い方から応用活用まで幅広く支援いたします。

たとえば、新規事業立ち上げにあたって有効な生成AIの活用について相談したい、マーケティング立案・実行(含むサイト構築など)を生成AIを使って軽く壁打ち的に活用しスモールスタートしたいので相談したいなど、柔軟に応じます。

下記よりお気軽にお問い合わせください。

お問い合わせ

    お名前 (必須)

    貴社名 (必須)

    電話番号

    メールアドレス (必須)

    メッセージ本文