udeo_business

AI、IT、最新技術、企業、コンサル、ビジネス

Googleの本気AI「Gemini」は、手書きの領収書のOCRとして使えるのか

はじめに

Google日本法人は2023年12月7日、最新AIモデル「Gemini」を発表しました。

テキスト、画像、音声、動画、コードなど複数の情報形式を扱えるマルチモーダルを実現するために1から設計したとのことです。

Geminiを試すには

現時点だと英語版Google Bardで試すことが可能です。

日本に居ても、下記設定ページで言語を「English」に設定、オプションを選択で「United States」を選択することで利用可能なようです。

Experiment updatesに下記が表示されたので問題なさそうです。

2023.12.06

Bard is getting its biggest upgrade yet with Gemini Pro

  • What: Starting today, we’re introducing Gemini Pro in Bard, for Bard’s biggest upgrade yet. We’ve specifically tuned Gemini Pro in Bard to be far more capable at things like understanding and summarizing, reasoning, coding, and planning. You can try out Bard with Gemini Pro for text-based prompts, with support for other modalities coming soon. It will be available in English in more than 170 countries and territories to start, and come to more languages and places, like Europe, in the near future.
  • Why: Today, Google introduced GeminiOpens in a new window, the most capable AI model in the world. Gemini unlocks new ways to create, interact and collaborate with Bard.

実際にOCRを試してみた

サンプルの手書きの領収書を使ってOCR機能を試してみました。

Q:

Read the contents of the receipt and create a list of items and contents.

TurboCASH5 - USA - Online Help

 

A:

The receipt is from Handyman Hardware Store and shows that Mr. A.B. Green purchased the following items on March 16, 2016:

  • Hammer
  • Saw
  • Drill
  • Hammerhead
  • Saw
  • Drill
  • Saw

The total amount of the purchase was 2000 Rands.

The image also shows that the receipt was generated using TurboCASH5 software.

感想

OCRは手書きも対応できてますね、お店の名前からハンマーやドリルなど明細項目をクリエイトしてくれています。領収書作成のソフトウェアを答えているのがおもしろいです。

 

LLMはマルチモーダルの時代に突入ですね、色々と苦しくなる会社が出てきそうです。

それでは。

領収書サンプル:TurboCASH5 - USA - Online Help