Skip to the content.

TF-IDFの使い所がむずい

最近、TF-IDFでやっていることがあるんだけど、文書が短いと単語の出現回数がほぼ全体で1となってしまって難しいことが分かってきた。TF-IDFをやるには少なくとも3,400ぐらいの文字数または語数の文書が適切なんじゃないかなあという所感。

とはいえ便利なんだよな~

TF-IDFは結構古典的なベクタライザーだけど、計算量も少ないし、ぱっと出せるのが良いところ。とはいえ、そこに甘えて決め打ちで使っていくと問題が起こってくる感じ・・・。とある文献によれば、TF-IDFはもとを辿れば情報検索分野の技術らしいので、僕のやってるような研究はそもそも向かないのかもしれない。