マルチモーダルAIとは、テキスト、音声、画像など、種類の異なる複数の情報を総合的に処理できる人工知能.

👁コンピュータビジョン

画像や映像から情報を抽出し、理解する技術.

  • 顔認識
  • 物体検出

👁視覚

Topics