GPT-4Vの使い方と活用事例 ChatGPTが画像・音声に対応

AI加工したうたの

こんにちは、うたのです(* ᴗ ᴗ)　最近は生成AIにはまっています。

OpenAI社が発表したChatGPTの新言語モデル「GPT-4V（ビジョン）」がついに実装されたのでさっそく試してみました。結論から言うとすごかったです。

今回はGPT-4Vの使い方と活用事例について解説していきます。

GPT-4Vとは？

OpenAI社が開発したChatGPT最新の言語モデルで、従来のGPT-4を拡張したモデル
GPT-4では文字認識にしか対応していないが、GPT-4Vでは画像認識・音声認識も可能になった
アップロードした画像の内容を分析して、それに関する情報や質問に答えてくれる
音声認識はスマホアプリ版のみに対応
ChatGPTの有料プラン「ChatGPT PLUS」で利用できる

※2023年10月12日時点

このページの目次

GPT-4Vとは
GPT-4Vの使い方
GPT-4Vの活用事例
人物の識別はできない
GPT-4Vの使い方と活用事例 ChatGPTが画像・音声に対応のまとめ

GPT-4Vとは

GPT-4V（ビジョン）とは、OpenAI社が開発したChatGPTの最新の言語モデルです。

従来のGPT-4を拡張したモデルで、GPT-4では文字しか認識しませんでしたが、GPT-4Vでは画像・音声も認識可能になりました。

GPT-4Vを発表したときのX（旧Twitter）をご覧ください。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb

— OpenAI (@OpenAI) September 25, 2023

動画の中では、自転車の画像をアップロードして「サドルを下げる手助けをして下さい」と入力しています。

ChatGPTからレスポンスが返ってきて、さらにポイントとなる部分の拡大写真と自分の持っている工具をアップロードすると、サドルを下げることに成功したという内容の画像です。

GPT-4はテキスト入力にしか対応していませんでしたが、GPT-4Vではアップロードした画像の内容を分析して、それに関する情報や質問に答えてくれるのです。

GPT-4Vの使い方

GPT-4VはChatGPTの有料プラン（月額２０ドル）である「ChatGPT PLUS」で利用することができます。

無料プラン（GPT3.5 ）の方は「GPT-4」から有料プランに入会して下さい。

プロンプト入力欄にアイコンが表示されていれば、GPT-4Vが使える状態になっています。

もしアイコンが表示されていなければ、Defaultにチェックが入っていることを確認してください。

2023年10月12日時点では、まだGPT-4Vがユーザー全員に解放されているわけではなさそうです。人によって解放される時期が違うようです。

GPT-4Vの活用事例

では実際にGPT-4Vを使ってみましょう。いろいろな活用方法を試してみました。

対象物の詳細を教えてくれる

犬の画像をアップロードして「この犬の犬種は何ですか？　性格も教えて下さい」と質問してみました。

見事にペキニーズであることを答えてくれました。性格もバッチリあってます。私はペキニーズを飼ってたので間違いありません

場所を教えてくれる

大阪道頓堀の画像をアップロードして「ここはどこですか？」と質問してみました。

場所を特定できるのは便利だけど悪用されると怖そうです

画像の感想を教えてくれる

画像生成AIで生成した画像をアップロードして「この画像の感想を教えて下さい」と質問してみました。

ハロウィンがテーマであることをきちんと理解していますね

図やグラフ読み取る

メタバース市場規模予測のグラフをアップロードして「このグラフから読み取れることは何ですか」と質問してみました。

メタバース関連企業が書かれた図の中にOpenAIが含まれているかを質問してみました。

細かく書かれた図やグラフまで見事に読み取ってくれました。

算数の問題を解く

図形問題の画像をアップロードして「この問題を解いてください」と質問してみました。

手書きの問題もアップロードしてみましたが見事に解いてくれました。

近い将来、学校に通う必要すらなくなるかも

画像からプロンプトを作成してくれる

Midjourneyのdescribe機能のようなことがGPT-4Vでもできます。

画像をアップロードして「同じような画像をAIで生成するためのプロンプトを考えて下さい」と入力するとプロンプトを生成してくれます。

実際にこのプロンプトを使ってDALL-E3で生成してみました。

かなり忠実に似たような画像を生成してくれました。プロンプトを考える必要がなくなりますね。

他にもX(旧Twitter）のタイムラインで流れてきた活用事例をいくつか紹介します。

画像の状況を推理する

GPT-4Vに今年の阪神の優勝時の写真を与えて撮られた場所と状況を推測させたら、画像の要素を細かく分析し、知識ベースにある過去事象を組み合わせて完璧に当ててきた。こやつできるな。

ちなみにGPT-4Vは2022年の知識までなので、今年優勝したことは知らない。 pic.twitter.com/6kfZRo1GyI

— FabyΔ (@FABYMETAL4) September 27, 2023

プログラミングができる

GPT-4Vに、某計算機アプリのスクショを与えてこのアプリ作りたいと指示したら、正常に動いて計算もできるHTML+jsのサンプルコードが1発で出てきた。フロントエンドのレイアウトもちゃんと守ってる。開発も色々と変わりそうな予感。 pic.twitter.com/IuSIwub5av

— FabyΔ (@FABYMETAL4) September 27, 2023