※paizaに会員登録すると無料で動画学習コンテンツをご利用いただけます
会員登録する
#04:マルチモーダル処理と非構造データの統合
このチャプターでは、マルチモーダル処理と非構造データの統合について学習します。
マルチモーダルとは、テキスト、画像、音声など形式の異なる情報を同時に扱う能力のこと。LLMはエンコーダという仕組みを使い、異なる形式のデータを共通のベクトル空間に変換することでこれを実現している。これにより、PDFや議事録のような非構造化データを統合的に分析・活用できる。この能力は、画像と説明文のペアを大量に学習する「対照学習(CLIPなど)」によって獲得される。