Blog

タッフブログ

2024.05.23

ChatGPT4oの画像入力を試してみました

前回の記事でも触れたChatGPT-4oについて、画像情報も上手に処理できるようになったということでちょっとやってみたいと思います。
個人的にはOCRのような使い方ができるんじゃないかと期待しているのですが、どうでしょうか。

 

OCRというと聞きなれない人も多いんじゃないかと思いますが、OCR は Optical Character Readerの略だそうで、画像データのテキスト部分を認識して文字データに変換したりする仕組みのことです。
ChatGPT-4oは文字以外の情報も当然読み取るようになっていると思うのですが、まずはここら辺から試してみたいと思います。

 

以前、何かの理由で撮ったレシートの画像です。

 

この画像を入力してみます。

 

 

ばっちり正確に読み込めてますね。
あとなんか同じグミを4つも買ってますね。なんででしょうか。

 

同じく、ちょっと湾曲した状態のレシートの画像です。

 

この画像を入力してみます。

 

 

多少湾曲していてもばっちり正確に読み込めてますね。
あとなんかまたグミ買ってますね。なんででしょうか。

 

 

次は本棚の画像を試してみたいと思います。
本の背表紙をどれだけ正確に認識できるでしょうか。

 

 

この画像を入力してみます。

 

 

ほぼ完ぺき、と言いたいですが、よく見るとタイトルの細かい表記が違ったりしていますね。
帯が邪魔で読み取れない本も無視されています。
正確さでいうと精度は7~8割程度といったところでしょうか。
撮り方をもっと工夫すれば精度も上がる気がします。

 

ChatGPT4(oではない方)でも同じことをやってみたのですが、こちらは散々な結果だったので、比較すると文字についてはすごく認識率が上がっている印象です。
人によるチェックは必要ですが、プロンプトや画像の作り方を工夫すれば、OCRとして業務効率化の一助くらいには十分なりえるのではないでしょうか。

 

 

さて、文字以外だとどうでしょうか。
これは前回の記事でも触れた、「福井をイメージ」してGPT4が生成した例の画像ですが……

 

 

 

すげぇー!

 

 

こちらはどうでしょう。

 

 

 

ダメでした。
まぁ、人間でもこの画像見て福井だとは言わないと思いますが。

 

 

ただ、連想結果はともかくとして、画像に何が描かれているかは正確に読み取れているようですね。

 

 

もっといろんなことができそうですね。

いつか音声入力についても試してみたいと思います。

 

ChatGPTについてもっと詳しく知りたい方は下記のリンクから関連書籍も探せますので是非一度チェックしてみてください。

ChatGPT関連書籍