Topics
📝言語モデル
単語列に対する📈確率分布.
- 👨クロード・シャノンの情報理論を打ち立てた論文(1948)ですでに登場している.
- 🤖大規模言語モデル(LLMs)の登場で大発展.
言語モデリング
📝言語モデルを構築する方法.
📝形態素解析
自然言語処理の前処理, 主に以下のものがある.
- クリーニング
- HTMLタグや記号等、テキスト中のノイズを除去.
- 文区切り(sentence segmentation)
- 文と文の区切りを検出し分割.
- 文境界解析
- 単語分割(tokenization)
- 文を単語の列に分割.
- 正規化(normalization)
- 全角・半角や大文字・小文字等の統一.
- ストップワードの除去(stopword removal/noise removal)
- 解きたいタスクに不要な単語を除去.
- ベクトル表現
🔧Embedding
文章をベクトル化する技術.
英語と日本語の対応集
- 前処理: preprocessing