生成系AI サービス・モデル整理した。LLM、DALL-E、CLIP、Diffusionモデル、imagen、Stable Diffusion、Midjourney、Transformer、PaLM 2、DuetAI、Codey、T5、ChatGPT、Titan、Pulumi AIなど関係性を整理した

生成系AI（ジェネレーティブAI）とは

生成系AI（ジェネレーティブAI）とは

生成系AI（ジェネレーティブAI）とは、新しいオリジナルのアウトプットを生み出すAIのこと。大きくは下記パターンに分類できます。
- 画像や動画
- オーディオ（音声や音楽など）
- テキスト（文章やコードなど）

世界的なブームで、サービスが多く混乱するため、生成系AIで展開されているサービス・モデルを整理してみました。

画像・動画・オーディオ生成
- VAE

　　変分オートエンコーダ。エンコーダで元の画像を潜在変数に、デコーダで潜在変数から画像を生成

- - DALL-E（OpenAI）：テキストエンコーダにTransformerを、画像生成器にVQ-VAEを採用した画像生成機能
- GAN

　　敵対的生成ネットワーク。画像生成モデル

- Diffusionモデル

　　ノイズからスタートし、徐々にノイズを除去していくことで、データを生成するモデル

- - Imagen(Google)：T5＋Diffusion。テキストから画像を生成する機能
  - GLIDE（OpenAI）：Diffusionモデルベース。テキスト情報をインプットとして、画像を生成する機能
  - DALL-E2（OpenAI）：GLIDE + CLIP（言語と画像のマルチモーダルモデル。言語と画像の対応関係を捉える）
  - Stable Diffusion（Stability AI）：テキスト情報をインプットとして、画像を生成する機能
- その他、未分類等
  - Midjourney：テキストから画像を生成する機能
  - Parti（Google）：自己回帰によるテキストから画像を生成する機能
  - Firefly（Adobe）：テキストから画像を生成する機能。著作権をクリアした素材のみを利用しているところが特徴

テキスト生成
- Transformer

　　Googleが発表した自然言語処理（NLP）のベースネットワーク

- - PaLM 2（Google）：大規模言語モデル
    - BARD（Google）：PaLM2ベース、対話型検索ブラウザ機能
    - DuetAI（Google）：自然言語AIでアシスタントサポートする機能
      - Google workspaceに搭載
      - Google Cloud各種サービスに搭載。Spanner、Looker等
    - Codey（Google）：コード生成や補完する機能
  - Gemini （Google）：大規模言語モデル、PaLM2の後継
  - T5（Google）：大規模言語モデル
  - BERT（Google）：大規模言語モデル
  - GPT-4（OpenAI）：大規模言語モデル
    - ChatGPT（OpenAI）：対話型自然言語機能
      - Bing（Microsoft）：対話型検索ブラウザ機能
      - Azure OpenAI Service（Microsoft）：ChatGPTのクラウドサービス
      - Dynamics 365 Copilot（Microsoft）
      - MS365 Copilot（Microsoft）
      - GitHub Copilot（GitHub）：対話型コード支援
  - Titan（Amazon）：大規模言語モデル
    - Amazon CodeWhisperer（Amazon）：行全体および全関数のコードの提案をIDEで生成する機能
  - StableLM（StabilityAI）：大規模言語モデル
  - Llama2（Meta）：大規模言語モデル
    - Code Llama（Meta）：コード生成機能
  - Falcon LLM（MetaTechnology Innovation Institute）：大規模言語モデル
  - Pulumi AI（Pulumi）：自然言語でインフラ構成コードを自動生成機能

パブクラの生成AI関連サービス
- Google Cloud
  - Generative AI Studio ：マネージドで生成系AI機能の利用ができる
  - Model Garden：Google独自のモデルやOSSや3rdPartyモデルなど検索利用できる
    - PaLM2、Codey、Stable Diffusion、Llama2、Falcon LLM等
- AWS
  - Amazon Bedrock：様々なFM（ファンデーションモデル）をマネージドで利用できる
    - Titan FMs：AWS独自モデル。Titan TextとTitan Embeddingsからなる
    - Jurassic-2、Claude、Stable Diffusion
  - Amazon Sagemaker Jumpstart：事前学習済のモデルやソリューションにアクセスしてタスク実行できる
    - Llama2、Jurassic-2、Falcon LLM、Stable Diffusion等
- Azure
  - Azure AI サービス
    - Azure OpenAI Service：GPTをマネージドサービスとして利用できる
  - Azure AI Studio：AIソリューションを開発するプラットフォームで事前学習済のモデルも利用できる
    - Azure OpenAI
    - Llama2、 Dolly等
  - Amazon CodeWhisperer：コード生成サービス