はじめに 自然言語処理では、しばしばTFIDFが使われます。Term Frequency - Inverse Document Frequencyの略で、文書内の単語の重要度を計算する手法です。今回は日本語Wikipediaの記事を文書とみなしたDocument Frequencyの取得APIを公開しました。
はじめに Apitoreで公開しているWord2VecのAPIを使って、任意の文書の代表語(文書ラベル)を作れないか検討してみました。アルゴリズムを考えてやってみましたがうまくいかなかったので、記録として残しておくことにします。
はじめに OneJapanという大企業の有志団体が集まって出来たアライアンスがありまして、そこでOneJapanが一丸となって取り組む企画提案ピッチをしてきました。OneJapanは大企業病に陥っている現在の状況を打破すべく立ち上がった組織ということもあり、Apitor…
はじめに 昨日の続きです。Jsoupというライブラリを使ってウェブスクレイピングするAPIを作りましたので公開します。今回は前回より少し踏み込んだAPIです。URLを入力するとそのURL内に含まれるHrefリンク全てを取得するAPIと、URLを入力するとそのURL内に含…
はじめに Jsoupというライブラリを使ってウェブスクレイピングするAPIを作りましたので公開します。今回のAPIは、URLを入力すると、そのURLのHTMLテキストまたは本文テキストを返します。
はじめに API Meetup #17に参加してきました。今回は年末スペシャルでLT大会もあったので、LTもやってきました。メディアの取材も入ると聞いていたので気合い入れて行きました。
はじめに Apitoreの次の商品の仕込みをしています。今回はJavaでPDFファイルからテキスト情報を取得します。ApacheからPDFBoxというOSSが出ていて、version 2.0から日本語にも対応したそうなのでこちらを使います。
同志であるReikoさんにApitoreのロゴを作ってもらいました。「雲っぽい感じ」とだけリクエストしたら、とんでもなく素敵なロゴを制作してくれました。
はじめに Mashup Awardsに初挑戦しました。先日、2016年11月27日に渋谷のTech Lab Paakにて関東一次予選があったので、午前の部でApitoreを発表してきました。
はじめに 今回はdeeplearning4jを使ったオンライン学習を試してみます。オンライン学習の定義は諸説あるみたいですが、私はパーセプトロン時代の定義に則って「定期的にデータをくべて現在のモデルを逐次更新する」としています。今回は、これまで作ったDist…
はじめに deeplearning4jではAdamなどの主要なUpdaterは大体使えますが、Updater毎に設定できるパラメータが違うので、メモも兼ねてまとめておきます。
はじめに 日本語極性判定APIのアップデート情報をこちらにまとめます。主なアナウンスはモデル更新と精度改善についてです。また、簡易的にパフォーマンスチェックサイトを作りました。サンプルツイートと極性判定APIでの推定結果を載せていますので、ご確認…
はじめに 依頼があったので、先日2016年11月1日に富士ゼロックスのみなとみらい事業所で開催されたStartup Weekend Yokohamaのプレイベントにて、体験者トークしてきました。Apitoreも2015年10月30日のStartup Weekend Tokyo Techで準優勝したのがきっ…
はじめに deeplearning4jのRNN+LSTMで日本語極性判定技術を作っています。先日公開してからかなり反響があり、アクセス数増加、Apitoreのユーザーも増え、Qiitaではデイリーランキング5位になりました。ありがとうございます!さて、今回は過学習を回避し、…
はじめに Spring bootでウェブサービスを作っていると、Thread unsafetyな@Serviceに気づくことがあります。私の場合はdeeplearning4jで極性判定技術をWebAPIにして公開しているのですが、MultiLayerNetworkがThread unsafetyであったために極性判定結果が極…
はじめに 先日公開した日本語極性判定技術を体験できるデモを作成しました。公開ツイートを極性判定した結果を見れる他、自分でテキストを入力して極性判定してみることもできます。極性判定結果が間違ってたらフィードバックを送れるようにしたので、よろし…
連絡事項 学習モデルを継続的に更新しているので、本記事で紹介する入力テキストの極性判定結果やスコアが変わります。最新情報は以下のリンクでご確認ください。 - 【アップデート情報】極性判定APIの精度改善 - 現行版の極性判定APIのパフォーマンスチェッ…
はじめに API Meetup #16に参加してきました。会場は今をときめく会計ソフトfreeeさんです。五反田って都会ですね!今回はMashup Awardsさんとのコラボでした。
はじめに 今回はword2vecとRNNを組み合わせて極性判定をしてみます。deeplearning4jのサンプルプログラムがほぼそのまま使えました。
はじめに Word2Vecの出力を機械学習の入力にすると精度が良くなると評判です。そこで今回は、以前作ったWord2Vecでツイートをベクトルデータにして、それをニューラルネットに突っ込んで極性判定してみました。
はじめに 前回に引き続き、deeplearning4jのdoc2vecをいじってみます。今回は日本語wikipediaで作ったword2vecモデルをdoc2vecの事前情報として使います。
はじめに deeplearning4jのdoc2vec (正確にはparagraph2vec) で極性判定をしてみました。学習データは自作した目的語リスト(約2,300語)を含む極性ツイートです。TwitterのSearchAPIでTwitter社がつけた極性付きツイートをクロールしています。
はじめに 極性判定APIを作ろうと思って、Twitterのクローラーを作りました。過去にDBやcrontabを駆使したとてもスマートなクローラーを作ったのですが、DBを使うために導入の敷居が少し高いです。今回はSpring-bootを使ってそこそこスマートかつJavaのみで実…
はじめに Googleが提供するPageSpeed InsightsでApitoreの速度を測った所、モバイルのスコアが50点台と悪かったので、キャッシング等々して高速化を図りました。結果、70点にはなったので、その情報をシェアします。
はじめに 単語を意味ベクトルに変換するAPIを公開しました。こちらで公開しています。実体はWord2Vecです。Neologdを採用しているので新語も変換できます。さっそくAPIの動作を見てみましょう。
はじめに 同義語っぽいAPIを公開しました。こちらで公開しています。実体はWord2VecのDistance APIです。日本語Wikipedia全文にNeologdの辞書を適用して学習データにしました。今回はこの同義語っぽいAPIの動作を色々と見てみましょう。
はじめに 旧名Swagger、新名称OpenAPI Specificationで、社内用と社外用のAPIドキュメントを分けて生成する方法を紹介します。正確に言うと、SpringfoxでSpring-bootのRestControllerからAPIドキュメントを自動生成している場合に使えるテクニックです。
はじめに 日本語WikipediaのWord2VecをWebAPIで公開するためにアレコレ準備してます。今回は公開までに至ったトラブルとその解決策をご紹介します。
はじめに Word2VecをApitoreで公開しました。こちらで公開しています。日本語WikipediaにNeologdの辞書を使いました。無料で使えます。ここでは、Word2Vecでどんなことができるかをご紹介します。
はじめに 前回の記事でdeeplearning4jのword2vecに日本語の形態素解析器kuromojiを組み込みました。その後、日本語Wikipediaを学習させていたのですが・・・丸5日学習させても終わりませんでした。そこで、どこに時間がかかっているのか分析し、どういう運用…