こんにちは、うたのです(* ᴗ ᴗ) 最近は生成AIにはまっています。
OpenAI社が発表したChatGPTの新言語モデル「GPT-4V(ビジョン)」がついに実装されたのでさっそく試してみました。結論から言うとすごかったです。
今回はGPT-4Vの使い方と活用事例について解説していきます。
※2023年10月12日時点
GPT-4V(ビジョン)とは、OpenAI社が開発したChatGPTの最新の言語モデルです。
従来のGPT-4を拡張したモデルで、GPT-4では文字しか認識しませんでしたが、GPT-4Vでは画像・音声も認識可能になりました。
GPT-4Vを発表したときのX(旧Twitter)をご覧ください。
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
動画の中では、自転車の画像をアップロードして「サドルを下げる手助けをして下さい」と入力しています。
ChatGPTからレスポンスが返ってきて、さらにポイントとなる部分の拡大写真と自分の持っている工具をアップロードすると、サドルを下げることに成功したという内容の画像です。
GPT-4はテキスト入力にしか対応していませんでしたが、GPT-4Vではアップロードした画像の内容を分析して、それに関する情報や質問に答えてくれるのです。
GPT-4VはChatGPTの有料プラン(月額20ドル)である「ChatGPT PLUS」で利用することができます。
無料プラン(GPT3.5 )の方は「GPT-4」から有料プランに入会して下さい。
プロンプト入力欄にアイコンが表示されていれば、GPT-4Vが使える状態になっています。
もしアイコンが表示されていなければ、Defaultにチェックが入っていることを確認してください。
2023年10月12日時点では、まだGPT-4Vがユーザー全員に解放されているわけではなさそうです。人によって解放される時期が違うようです。
では実際にGPT-4Vを使ってみましょう。いろいろな活用方法を試してみました。
犬の画像をアップロードして「この犬の犬種は何ですか? 性格も教えて下さい」と質問してみました。
見事にペキニーズであることを答えてくれました。性格もバッチリあってます。私はペキニーズを飼ってたので間違いありません
大阪道頓堀の画像をアップロードして「ここはどこですか?」と質問してみました。
場所を特定できるのは便利だけど悪用されると怖そうです
画像生成AIで生成した画像をアップロードして「この画像の感想を教えて下さい」と質問してみました。
ハロウィンがテーマであることをきちんと理解していますね
メタバース市場規模予測のグラフをアップロードして「このグラフから読み取れることは何ですか」と質問してみました。
メタバース関連企業が書かれた図の中にOpenAIが含まれているかを質問してみました。
細かく書かれた図やグラフまで見事に読み取ってくれました。
図形問題の画像をアップロードして「この問題を解いてください」と質問してみました。
手書きの問題もアップロードしてみましたが見事に解いてくれました。
近い将来、学校に通う必要すらなくなるかも
Midjourneyのdescribe機能のようなことがGPT-4Vでもできます。
画像をアップロードして「同じような画像をAIで生成するためのプロンプトを考えて下さい」と入力するとプロンプトを生成してくれます。
実際にこのプロンプトを使ってDALL-E3で生成してみました。
かなり忠実に似たような画像を生成してくれました。プロンプトを考える必要がなくなりますね。
他にもX(旧Twitter)のタイムラインで流れてきた活用事例をいくつか紹介します。
GPT-4Vに今年の阪神の優勝時の写真を与えて撮られた場所と状況を推測させたら、画像の要素を細かく分析し、知識ベースにある過去事象を組み合わせて完璧に当ててきた。こやつできるな。
ちなみにGPT-4Vは2022年の知識までなので、今年優勝したことは知らない。 pic.twitter.com/6kfZRo1GyI— FabyΔ (@FABYMETAL4) September 27, 2023
GPT-4Vに、某計算機アプリのスクショを与えてこのアプリ作りたいと指示したら、正常に動いて計算もできるHTML+jsのサンプルコードが1発で出てきた。フロントエンドのレイアウトもちゃんと守ってる。開発も色々と変わりそうな予感。 pic.twitter.com/IuSIwub5av
— FabyΔ (@FABYMETAL4) September 27, 2023
私はプログラミングのことはさっぱりわかりませんが、何やらすごそうです。
どうやら人物の識別には対応していないようです。
試しに誰もが知る歴史上の人物の写真をアップロードして「この人は誰ですか」と質問してみたところ「申し訳ありませんが、それに関してはお手伝いできません」と答えが返ってきました。
人物が識別されてしまうと「この人は誰ですか?」「この人はどこに住んでいますか?」などの質問にAIが答えてしまいプライバシーが侵害されてしまう恐れがあるので、対応していないのではないかと思われます。
以上、ChatGPTの最新モデル「GPT-4V」について使い方や活用事例を解説してきました。
今回は紹介しませんでしたがスマホアプリの方では音声認識にも対応しています。機会があれば追って記事にしたい思います。
今回紹介した活用事例はほんの一部です。アイデア次第でいろんな使い方ができそうです。仕事にもプライベートにも大いに活用したいですね。AIはどこまで進化するのか、不安でもあり楽しみでもあります。
当ブログでは他にもAIの最新情報や活用方法についていろいろ紹介しています。ぜひ参考にして下さい。