GPT-4Vの使い方と活用事例 ChatGPTが画像・音声に対応


AI加工したうたの

AI加工したうたの

 

こんにちは、うたのです(* ᴗ ᴗ) 最近は生成AIにはまっています。



OpenAI社が発表したChatGPTの新言語モデル「GPT-4V(ビジョン)」がついに実装されたのでさっそく試してみました。結論から言うとすごかったです。


今回はGPT-4Vの使い方と活用事例について解説していきます。



GPT-4Vとは?
  • OpenAI社が開発したChatGPT最新の言語モデルで、従来のGPT-4を拡張したモデル
  • GPT-4では文字認識にしか対応していないが、GPT-4Vでは画像認識・音声認識も可能になった
  • アップロードした画像の内容を分析して、それに関する情報や質問に答えてくれる
  • 音声認識はスマホアプリ版のみに対応
  • ChatGPTの有料プラン「ChatGPT PLUS」で利用できる

※2023年10月12日時点



GPT-4Vとは


GPT-4V(ビジョン)とは、OpenAI社が開発したChatGPTの最新の言語モデルです。


従来のGPT-4を拡張したモデルで、GPT-4では文字しか認識しませんでしたが、GPT-4Vでは画像・音声も認識可能になりました。



GPT-4Vを発表したときのX(旧Twitter)をご覧ください。



動画の中では、自転車の画像をアップロードして「サドルを下げる手助けをして下さい」と入力しています。


ChatGPTからレスポンスが返ってきて、さらにポイントとなる部分の拡大写真と自分の持っている工具をアップロードすると、サドルを下げることに成功したという内容の画像です。


GPT-4はテキスト入力にしか対応していませんでしたが、GPT-4Vではアップロードした画像の内容を分析して、それに関する情報や質問に答えてくれるのです。

GPT-4Vの使い方


GPT-4VはChatGPTの有料プラン(月額20ドル)である「ChatGPT PLUS」で利用することができます。


無料プラン(GPT3.5 )の方は「GPT-4」から有料プランに入会して下さい。


GPT-4Vの使い方


プロンプト入力欄にアイコンが表示されていれば、GPT-4Vが使える状態になっています。



もしアイコンが表示されていなければ、Defaultにチェックが入っていることを確認してください。


GPT-4Vの使い方


2023年10月12日時点では、まだGPT-4Vがユーザー全員に解放されているわけではなさそうです。人によって解放される時期が違うようです。

GPT-4Vの活用事例


では実際にGPT-4Vを使ってみましょう。いろいろな活用方法を試してみました。



対象物の詳細を教えてくれる


犬の画像をアップロードして「この犬の犬種は何ですか? 性格も教えて下さい」と質問してみました。




 

見事にペキニーズであることを答えてくれました。性格もバッチリあってます。私はペキニーズを飼ってたので間違いありません



場所を教えてくれる


大阪道頓堀の画像をアップロードして「ここはどこですか?」と質問してみました。


GPT-4Vの使い方



 

場所を特定できるのは便利だけど悪用されると怖そうです



画像の感想を教えてくれる


画像生成AIで生成した画像をアップロードして「この画像の感想を教えて下さい」と質問してみました。


GPT-4Vの使い方



 

ハロウィンがテーマであることをきちんと理解していますね



図やグラフ読み取る


メタバース市場規模予測のグラフをアップロードして「このグラフから読み取れることは何ですか」と質問してみました。


GPT-4Vの使い方



メタバース関連企業が書かれた図の中にOpenAIが含まれているかを質問してみました。


GPT-4Vの使い方



 

細かく書かれた図やグラフまで見事に読み取ってくれました。



算数の問題を解く


図形問題の画像をアップロードして「この問題を解いてください」と質問してみました。


GPT-4Vの使い方



手書きの問題もアップロードしてみましたが見事に解いてくれました。


GPT-4Vの使い方



 

近い将来、学校に通う必要すらなくなるかも



画像からプロンプトを作成してくれる


Midjourneyのdescribe機能のようなことがGPT-4Vでもできます。


画像をアップロードして「同じような画像をAIで生成するためのプロンプトを考えて下さい」と入力するとプロンプトを生成してくれます。


GPT-4Vの使い方



実際にこのプロンプトを使ってDALL-E3で生成してみました。




 

かなり忠実に似たような画像を生成してくれました。プロンプトを考える必要がなくなりますね。




他にもX(旧Twitter)のタイムラインで流れてきた活用事例をいくつか紹介します。



画像の状況を推理する




プログラミングができる




 

私はプログラミングのことはさっぱりわかりませんが、何やらすごそうです。

人物の識別はできない


どうやら人物の識別には対応していないようです。


試しに誰もが知る歴史上の人物の写真をアップロードして「この人は誰ですか」と質問してみたところ「申し訳ありませんが、それに関してはお手伝いできません」と答えが返ってきました。




人物が識別されてしまうと「この人は誰ですか?」「この人はどこに住んでいますか?」などの質問にAIが答えてしまいプライバシーが侵害されてしまう恐れがあるので、対応していないのではないかと思われます。

GPT-4Vの使い方と活用事例 ChatGPTが画像・音声に対応のまとめ

CHECKPOINT
  • GPT-4VはOpenAI社が開発したChatGPT最新の言語モデル
  • 従来のGPT-4を拡張したモデルで、GPT-4では文字認識にしか対応していないが、GPT-4Vでは画像認識・音声認識も可能になった
  • アップロードした画像の内容を分析して、それに関する情報や質問に答えてくれる
  • ChatGPTの有料プラン「ChatGPT PLUS」で利用できる



以上、ChatGPTの最新モデル「GPT-4V」について使い方や活用事例を解説してきました。


今回は紹介しませんでしたがスマホアプリの方では音声認識にも対応しています。機会があれば追って記事にしたい思います。


今回紹介した活用事例はほんの一部です。アイデア次第でいろんな使い方ができそうです。仕事にもプライベートにも大いに活用したいですね。AIはどこまで進化するのか、不安でもあり楽しみでもあります。


当ブログでは他にもAIの最新情報や活用方法についていろいろ紹介しています。ぜひ参考にして下さい。