Topics

📝言語モデル

単語列に対する📈確率分布.

言語モデリング

📝言語モデルを構築する方法.

📝形態素解析

自然言語処理の前処理, 主に以下のものがある.

  • クリーニング
    • HTMLタグや記号等、テキスト中のノイズを除去.
  • 文区切り(sentence segmentation)
    • 文と文の区切りを検出し分割.
    • 文境界解析
  • 単語分割(tokenization)
    • 文を単語の列に分割.
  • 正規化(normalization)
    • 全角・半角や大文字・小文字等の統一.
  • ストップワードの除去(stopword removal/noise removal)
    • 解きたいタスクに不要な単語を除去.
  • ベクトル表現

🔧Embedding

文章をベクトル化する技術.

英語と日本語の対応集

  • 前処理: preprocessing

文区切り(Sentence Segmentation)

Speech to Text