Topics

📝蚀語モデル

単語列に察する📈確率分垃.

蚀語モデリング

📝蚀語モデルを構築する方法.

📝圢態玠解析

自然蚀語凊理の前凊理, 䞻に以䞋のものがある.

  • クリヌニング
    • HTMLタグや蚘号等、テキスト䞭のノむズを陀去.
  • 文区切り(sentence segmentation)
    • 文ず文の区切りを怜出し分割.
    • 文境界解析
  • 単語分割(tokenization)
    • 文を単語の列に分割.
  • 正芏化(normalization)
    • 党角・半角や倧文字・小文字等の統䞀.
  • ストップワヌドの陀去(stopword removal/noise removal)
    • 解きたいタスクに䞍芁な単語を陀去.
  • ベクトル衚珟

🔧Embedding

文章をベクトル化する技術.

英語ず日本語の察応集

  • 前凊理: preprocessing

文区切り(Sentence Segmentation)

Speech to Text