生成系AI サービス・モデル整理 -GPT、DALL-E、PaLMなど-
生成系AI(ジェネレーティブAI)とは
-
生成系AI(ジェネレーティブAI)とは、新しいオリジナルのアウトプットを生み出すAIのこと。大きくは下記パターンに分類できます。
-
画像や動画
-
オーディオ(音声や音楽など)
-
テキスト(文章やコードなど)
-
世界的なブームで、サービスが多く混乱するため、生成系AIで展開されているサービス・モデルを整理してみました。
-
画像・動画・オーディオ生成
-
VAE
-
変分オートエンコーダ。エンコーダで元の画像を潜在変数に、デコーダで潜在変数から画像を生成
-
-
- DALL-E(OpenAI):テキストエンコーダにTransformerを、画像生成器にVQ-VAEを採用した画像生成機能
-
GAN
-
敵対的生成ネットワーク。画像生成モデル
-
-
Diffusionモデル
-
ノイズからスタートし、徐々にノイズを除去していくことで、データを生成するモデル
-
-
- Imagen(Google):T5+Diffusion。テキストから画像を生成する機能
- GLIDE(OpenAI):Diffusionモデルベース。テキスト情報をインプットとして、画像を生成する機能
- DALL-E2(OpenAI):GLIDE + CLIP(言語と画像のマルチモーダルモデル。言語と画像の対応関係を捉える)
- Stable Diffusion(Stability AI):テキスト情報をインプットとして、画像を生成する機能
-
その他、未分類等
-
-
テキスト生成
-
Transformer
-
Googleが発表した自然言語処理 (NLP)のベースネットワーク
-
-
- PaLM 2(Google):大規模言語モデル
- Gemini (Google):大規模言語モデル、PaLM2の後継
- T5(Google):大規模言語モデル
- BERT(Google)
- GPT-4(OpenAI):大規模言語モデル
- Titan(Amazon):大規模言語モデル
- StableLM(StabilityAI):大規模言語モデル
- Llama2(Meta):大規模言語モデル
- Code Llama(Meta):コード生成機能
- Falcon LLM(MetaTechnology Innovation Institute):大規模言語モデル
- Pulumi AI(Pulumi):自然言語でインフラ構成コードを自動生成機能
-