udeo_business

AI、IT、最新技術、企業、コンサル、ビジネス

生成系AI サービス・モデル整理 -GPT、DALL-E、PaLMなど-

生成系AI(ジェネレーティブAI)とは

  • 生成系AI(ジェネレーティブAI)とは、新しいオリジナルのアウトプットを生み出すAIのこと。大きくは下記パターンに分類できます。

    • 画像や動画

    • オーディオ(音声や音楽など)

    • テキスト(文章やコードなど)

世界的なブームで、サービスが多く混乱するため、生成系AIで展開されているサービス・モデルを整理してみました。

  • 画像・動画・オーディオ生成

    • VAE

  変分オートエンコーダ。エンコーダで元の画像を潜在変数に、デコーダで潜在変数から画像を生成

      • DALL-E(OpenAI):テキストエンコーダにTransformerを、画像生成器にVQ-VAEを採用した画像生成機能
    • GAN

  敵対的生成ネットワーク。画像生成モデル

    • Diffusionモデル

  ノイズからスタートし、徐々にノイズを除去していくことで、データを生成するモデル

      • Imagen(Google):T5+Diffusion。テキストから画像を生成する機能
      • GLIDE(OpenAI):Diffusionモデルベース。テキスト情報をインプットとして、画像を生成する機能
      • DALL-E2(OpenAI)GLIDE + CLIP(言語と画像のマルチモーダルモデル。言語と画像の対応関係を捉える)
      • Stable Diffusion(Stability AI)テキスト情報をインプットとして、画像を生成する機能
    • その他、未分類等
      • Midjourney:テキストから画像を生成する機能
      • Parti(Google自己回帰によるテキストから画像を生成する機能
      • Firefly(Adobe:テキストから画像を生成する機能。著作権をクリアした素材のみを利用しているところが特徴
  • テキスト生成

    • Transformer

  Googleが発表した自然言語処理NLP)のベースネットワーク

  • パブクラの生成AI関連サービス

    • Google Cloud
      • Generative AI Studio :マネージドで生成系AI機能の利用ができる
      • Model GardenGoogle独自のモデルやOSSや3rdPartyモデルなど検索利用できる
        • PaLM2、Codey、Stable Diffusion、Llama2、Falcon LLM等
    • AWS
      • Amazon Bedrock:様々なFM(ファンデーションモデル)をマネージドで利用できる
        • Titan FMsAWS独自モデル。Titan TextとTitan Embeddingsからなる
        • Jurassic-2ClaudeStable Diffusion
      • Amazon Sagemaker Jumpstart:事前学習済のモデルやソリューションにアクセスしてタスク実行できる
        • Llama2、Jurassic-2、Falcon LLM、Stable Diffusion等
    • Azure
      • Azure AI サービス
        • Azure OpenAI Service:GPTをマネージドサービスとして利用できる
      • Azure AI Studio:AIソリューションを開発するプラットフォームで事前学習済のモデルも利用できる
        • Azure OpenAI
        • Llama2、 Dolly等
      • Amazon CodeWhisperer:コード生成サービス