【API】日本語WikipediaのDocument Frequencyを取得する

はじめに

自然言語処理では、しばしばTFIDFが使われます。Term Frequency – Inverse Document Frequencyの略で、文書内の単語の重要度を計算する手法です。今回は日本語Wikipediaの記事を文書とみなしたDocument Frequencyの取得APIを公開しました。
amarec (20161225-070950)

API

サンプルコード

使ってみる

とてもシンプルなAPIです。入力は単語で、出力はDocument Frequency (単語が出現する文書数) です。試しに「犬」を入力してみます。

{
  "log": "",
  "startTime": "1482618692860",
  "endTime": "1482618692860",
  "processTime": "0",
  "word": "犬",
  "documentFrequency": 14348
}

続いて「猫」。猫のほうが犬より記事が少ないんですね。

{
  "log": "",
  "startTime": "1482618725303",
  "endTime": "1482618725303",
  "processTime": "0",
  "word": "猫",
  "documentFrequency": 11885
}

全体の文書数は「。」で分かります。

{
  "log": "",
  "startTime": "1482618784632",
  "endTime": "1482618784632",
  "processTime": "0",
  "word": "。",
  "documentFrequency": 1014094
}

おわりに

とてもシンプルで地味なAPIですが、自分でWikipediaのDocument Frequencyを計算すると面倒なので、地味に役立つAPIではないでしょうか?

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です