はじめに
自然言語処理では、しばしばTFIDFが使われます。Term Frequency - Inverse Document Frequencyの略で、文書内の単語の重要度を計算する手法です。今回は日本語Wikipediaの記事を文書とみなしたDocument Frequencyの取得APIを公開しました。
API
サンプルコード
使ってみる
とてもシンプルなAPIです。入力は単語で、出力はDocument Frequency (単語が出現する文書数) です。試しに「犬」を入力してみます。
{
"log": "",
"startTime": "1482618692860",
"endTime": "1482618692860",
"processTime": "0",
"word": "犬",
"documentFrequency": 14348
}
続いて「猫」。猫のほうが犬より記事が少ないんですね。
{
"log": "",
"startTime": "1482618725303",
"endTime": "1482618725303",
"processTime": "0",
"word": "猫",
"documentFrequency": 11885
}
全体の文書数は「。」で分かります。
{
"log": "",
"startTime": "1482618784632",
"endTime": "1482618784632",
"processTime": "0",
"word": "。",
"documentFrequency": 1014094
}
おわりに
とてもシンプルで地味なAPIですが、自分でWikipediaのDocument Frequencyを計算すると面倒なので、地味に役立つAPIではないでしょうか?