はじめに

先日のTFIDFを使った文章タグ計算のAPIに続いて、今度はword2vecを使って文章の要約単語を抜き出しました。TFIDFだと意味的に類似した単語の区別がつかないのですが、word2vecであれば意味的に類似した単語がコサイン距離で分かるので、出力の文章タグがそれぞれ独立した単語になります。
amarec (20161225-071022)

続きを読む

はじめに

文章のタグ付けAPIを公開しました。TFIDFで文章の代表語を計算します。文章に適切なタグを付ければ、あとから文章を探すときや特定の分野の文章をまとめて検索するときに役立ちます。TFIDFはオーソドックスな手法ですが、大きく外れることもない安定した手法です。
amarec (20161225-071016)

続きを読む

はじめに

長い文章を単文に分割するAPIを公開しました。例えば、文書要約では要約文を生成するアプローチと、要約文を抽出するアプローチとありますが、本APIは後者をするときに役立ちます。簡単なヒューリスティックスを使っているので、あまり精度はよくありません。暫定的な処置としてお使い下さい。
amarec (20161225-071002)

続きを読む

はじめに

OneJapanという大企業の有志団体が集まって出来たアライアンスがありまして、そこでOneJapanが一丸となって取り組む企画提案ピッチをしてきました。OneJapanは大企業病に陥っている現在の状況を打破すべく立ち上がった組織ということもあり、Apitoreの目的と完全に合致しています。

続きを読む

はじめに

昨日の続きです。Jsoupというライブラリを使ってウェブスクレイピングするAPIを作りましたので公開します。今回は前回より少し踏み込んだAPIです。URLを入力するとそのURL内に含まれるHrefリンク全てを取得するAPIと、URLを入力するとそのURL内に含まれるimgタグのsrcリンク全てを取得するAPIを紹介します。
amarec (20161214-224217)

続きを読む