トークナイズ(単語分割)とは

2017年11月15日 00:37

トークナイズとは、データベースなどでインデックスを作る際に、単語で分割を行うことを指す。単語のことをトークン、単語分割はトークナイズ、単語分割を行うコンポーネントのことをトークナイザーと呼ぶ。

Solrでは、転置インデックス方式を取っているため、インデックスを作成する際にドキュメントを単語に分割する必要が出てくる。

その単語分割を行う際に使うものがトークナイザになる。


ただ、単純にトークナイズを行うと検索結果が変わってくる場合があり、例として六本木ヒルズを単語にしてしまうと、ヒルズでは六本木ヒルズが引っかからないなどの問題もあるので、チューニングに関しては慎重に行う必要がある。

トークナイズではないが、文字数で分割する方式としてはn-gramなどもある。

スポンサードサーチ

コメント



作成支援

新着

タグ一覧