【OpenAIの本気】最新モデル”GPT-4o”徹底解説【感情表現まで】

こんにちは、ときか姉です♪

とうとうリアルな人間のような対話が可能になった”GPT-4o“（フォーオー）。

この記事では、そのOpenAIの最新モデルについてデモ動画を交えながら解説します♪

GPT-4oの概要
GPT-4oの特徴
GPT-4oの定量評価
GPT-4oの利用料金
まとめ

GPT-4oの概要

2024年5月13日にOpenAIが新モデルGPT-4o（フォーオー）を公開しました。

名称の最後についている”o”という記号は”omni“の略で、ラテン語で「すべて」という意味になります。全方位的・万能であるという意味合いを強調したかったのだと推測されます。それが決して大げさではないことが、以下に解説するGPT-4oの特徴・性能で納得していただけるかと思います。

GPT-4oの特徴

OpenAIサム・アルトマンさんが、今回のGPT-4oについて以下の2点を自身のブログで強調していました。

Sam Altman

無料（あるいはそれに向けたもの）であること
音声応答のすごさ

ChatGPT有料版に加入している人はただちに使えます。

音声応答に関しては以下に詳述します。

ご参考までにブログ内原文を引用します。

First, a key part of our mission is to put very capable AI tools in the hands of people for free (or at a great price). I am very proud that we’ve made the best model in the world available for free in ChatGPT, without ads or anything like that.
https://blog.samaltman.com/

Second, the new voice (and video) mode is the best computer interface I’ve ever used. It feels like AI from the movies; and it’s still a bit surprising to me that it’s real. Getting to human-level response times and expressiveness turns out to be a big change.
https://blog.samaltman.com/

リンク

音声応答（Voice mode）の強化

サム・アルトマン自身もまだ信じられないという表現をしているぐらい、今回のGPT-4oの音声応答は驚異的です。

以下の2つに分けて記します。

応答速度向上
応答精度・質の向上（歌唱・相槌・感情表現など）

音声応答速度の向上

音声モードでなくとも、ベースとなる応答速度が、GPT-4Turboと比較して２倍程度高速と言われています。

もちろん内容にもよりますが、1,000文字程度の要約などを求めるとほぼ一瞬で出力が返ってきます。私が使った体感では、GPT-4Turboに比べて3倍ぐらい速い感じがしました。

そしてそこにVoice modeの強化です。

今回の新モデルでは、音声応答におけるタイムラグ（遅延）がほぼなくなりました。

公式HPによると、かつての応答遅延はGPT-3.5では2.8秒, GPT-4では5.4秒だったのですが、今回のGPT-4oでは平均320ミリ秒になり、これは人間の会話における実際の応答時間と近い値だそうです。

これにより人間とほぼ同じ速度で会話可能となりました。

こちらのOpenAI公式のデモ動画（GPT-4oの概要, OpenAI GPT-4o guessing May 13th’s announcement）を見ていただくとそのすごさがわかります。

すさまじい速さで高品質の返答が返ってきます。

それだけでなく、OpenAI公式HPのデモ動画（”Talking faster“）では、指示を通じてピッチ（会話速度）変更まで対応できていました。

音声応答の精度

そしてその精度と質の向上です。

翻訳

OpenAI公式HPのデモ動画（”Translation“）では、英語・スペイン語ですが、ほぼリアルタイムです。

歌唱

歌も唄えます。OpenAI公式HPのデモ動画（”Two GPT-4os harmonization“）では2つのGPT-4oがコーラスしています。

感情表現

そして、多くのひとびとに驚きとともに向かえられたのが感情表現です。

AIが感情を持った瞬間である、以下2つをご覧ください。

OpenAI公式HPのデモ動画（”Interview prep“）（52秒あたり：身なりに対する指摘に対して、適当に帽子だけ被ってどうかと尋ねた際の応答）
OpenAI公式HPのデモ動画（”Dad jokes“）（38秒あたり：おやじギャグの後）

リンク

画像理解能力の向上

音声＋視覚のマルチモダリティも健在です。

OpenAI公式チャンネルのyoutube動画にデモがあります。

過去モデルでもある程度できていましたが、さらに洗練されています。

↑の動画の14:00からは、簡単な数式の解法を尋ねてGPT-4oが回答してくれるシーンがあります。

また、↑の動画の18:30からは、pythonコードを画面に写しながら、音声でコードに関する質問を答えてくれ、アシストしてくれます。コピペの手間が不要です。当然図やグラフの理解・解釈などにも対応しています。

なお、OpenAI公式HPには、別のデモ動画（”Math problems“）もあります。

画像理解そのものは以前からできていました。数式理解に関しても、Geminiが手書き数式を解説したことも有名です。

しかし、リアルタイムで画像を見て音声で即座に応答できるレベルにまで向上したマルチモーダルAIがこんなに早く実現できる日がくるとは想像できませんでした。

使いやすさ

そしてなんと、Macユーザは、音声モードをショートカットキー一発で起動できるとのことです。この易起動性（起動しやすさ）は魅力的です。GPT-4oがより広範なユーザーに使われるようになるかと想います。

ただし、モバイルではも音声モードは残念ながらまだ利用できないようです（2024年5月15日時点）。

リンク

[関連記事]

GPT-4oの定量評価

公式HPには、他モデルとの性能評価の比較グラフが出ています。

定番のMMLU評価などを始めとして、公式HP “Hello GPT-4o“内の”Model evaluations“に、以下5種の比較が掲載されています。

Text Evaluation
Audio ASR performance
Audio translation performance
M3Exam Zero-Shot Results
Vision understanding evals

過去モデルの音声モードでは、対話部分を3つのモデルに用いて、音声認識は別モデルで処理していました。しかし今回の新モデルGPT-4oでは、モダリティが別れておらず、すべての過程を一つのネットワークモデルで処理しているそうです。

デモ動画を見てもわかるように、やはりVision understanding evals（画像理解）の性能がかなり高く、Google GeminiやClaude 3 Opus（クロード３オーパス）を大きく引き離しています。

数日前には、X（Twitter）で、企業ロゴがびっしり描画された画像から、社名リストを正確に抽出するデモなどがユーザによって公開されていました。

リンク

GPT-4oの利用料金

低価格化実現に向けたトークン最適化

言語は、モデル内ではトークンと呼ばれる基本単位として扱われ、一般にそのトークンに対する従量課金となります。そのため、低コストでのAI利用のためにも、トークンに対する最適化はユーザにとって重要な問題になります。GPT-4oでは、20ほどの言語で最適化されているようで、それには日本語・中国語・韓国語なども含まれています。

他に以下のような言語が最適化されています。

Gujarati/Telugu/Tamil/Marathi/Hindi/Urdu/Arabic/Persian/Russian/Vietnamese/Turkish/Italian/German/Spanish/Portuguese/French/English

現行料金

現行料金は以下に記載されています。

[Open AI, Pricing]

Just a moment...

これによると、

Input: $5.00 / 1M tokens
Output: $15.00 / 1M tokens

と記載されています。前述のトークン最適化の恩恵で、GPT-4Turboのほぼ半額になるそうです。

AI民主化への期待

このようなハイテクノロジー、ハイスペックAIが寡占化されたものにならずに済むのは、OpenAIのAI民主化への想いですね。広告などもなしで低価格で使えるのは本当にありがたいことです。

OpenAI公式HPには、盲目の方の眼の代わりになるデモ動画（”BeMyEyes in London“）もありました↓。

AIとヒトとの共生が進む未来も楽しみです。

まとめ

Omniの名が示すように全方位的に高い性能を示したGPT-4oとその性能を紹介しました。

価格との比較表を見ても、現時点でコスパも最強です。

GPT-4oにより、対話型AIのユーザエクスペリエンスが激変すると思われます。個人的には、ChatGPTが登場したときぐらいの衝撃を受けています。

最近はClaudeやGeminiとデッドヒートを繰り広げ、分野によっては押されつつもありましたが、今回すさまじい性能で世界を驚かしました。ふたたび頭ひとつ抜けた感があります。

個人的に、今後は以下にも注目したいです。

デモ作成にはNVIDIA GPUの提供があったと言われており、両社のさらなる提携が期待
低価格化によりAIの民主化がさらに加速
AIと外界間相互作用が強化され、身体化・外部化含めたAGI実現への道

私も乗り遅れずGPT-4oを使い倒したいです♪

今後もAI Newsを発信していきたいと思います。

この記事が身近なAI化の一助になれば幸いです。

♪♪♪ Have a nice day interacting AI and Human ♪♪♪

[関連記事]

リンク