テクノロジー編26:自然言語処理

この動画を見るにはpaiza会員登録のうえ
有料会員登録が必要です

※有料会員になるとこの動画をご利用いただけます

＃12:自然言語処理

このチャプターでは、自然言語処理のアルゴリズムを学習します。

人間が使う「自然言語」をコンピュータが理解し、処理する技術。
検索エンジンや音声認識、機械翻訳などで利用される。

文章を単語ごとに分解し、各単語の品詞などを判別することにより、「形態素」を抽出する処理。
日本語のように単語の区切りが曖昧な言語にとっては特に重要な処理。
必ずしも一意に解釈できるわけではなく、正確な解析が難しい場合もある。

形態素解析で得られた形態素をもとに、文章の文法構造を解析する処理。
文法的に正しい文章なのか判断でき、また意味を正確に理解するための手助けとなる。
係り受け解析と呼ばれる構文解析手法も用いられる。

形態素解析や構文解析で得られた情報をもとに、その文が持つ意味を解釈する。
言語には多くの曖昧さが存在するため、こうした曖昧さを解消し、文章の真の意味を理解するための重要なステップ。

単一の文だけではなく、より広い文脈を考慮して意味を理解する。
近年の大規模言語モデル (LLM) は、この文脈解析の能力が非常に高いとされる。

自然言語を扱うモデルでよく使われる手法。
文章から n 個の連続した単語の組み合わせを切り出し、それを分析する。
一般に n の値が大きくなるほど、より長い文脈を考慮することができるが、計算量も増える。
統計的な手法を用いて、単語の出現頻度や連続性を分析するために使われる。

文章間類似度は、 2 つ以上の文章がどれだけ似ているのかを数値化する。
コサイン類似度や Jaccard 係数などがある。