Apitore blog

Apitoreを運営していた元起業家のブログ

【API】URLからHTMLを抽出する(URL2HTML、URL2TEXT)

はじめに

Jsoupというライブラリを使ってウェブスクレイピングするAPIを作りましたので公開します。今回のAPIは、URLを入力すると、そのURLのHTMLテキストまたは本文テキストを返します。 amarec (20161214-224143)

注意事項

Apitoreの利用規約は遵守してください。Apitoreは本APIの利用に伴う一切の責任を負いません。スクレイピングの可否は先方の規約に依存します。例えば、Amazonのようにスクレイピングを禁止しているサイトへのスクレイピングは禁止です。ログを取っているので、通報があったり悪質な使い方をしている場合は当該アカウントを凍結、場合によっては法的な措置を取ります。

サンプルコード

使ってみる

公開したAPIは以下の2つです。

前者はURLをHTMLにして出力し、後者はURLからテキストを抜き出して出力します。ためしにWikipediaについてのwikipedia記事をURL2TEXTしてみます。途中を中抜しましたが、このように本文のテキストを取れます。

{
  "log": "",
  "startTime": "1481723361899",
  "endTime": "1481723362888",
  "processTime": "989",
  "text": "ウィキペディア - Wikipedia ウィキペディア 出典: フリー百科事典『ウィキペディア(Wikipedia)』 移動先: 案内、 検索 本項目は、百科事典の記事としてウィキペディアを説明したものです。
...
最終更新 2016年10月2日 (日) 09:22 (日時は個人設定で未設定ならばUTC)。 テキストはクリエイティブ・コモンズ 表示-継承ライセンスの下で利用可能です。追加の条件が適用される場合があります。詳細は利用規約を参照してください。 プライバシー・ポリシー ウィキペディアについて 免責事項 開発者 Cookie statement モバイルビュー"
}

おわりに

スクレイピングは便利ですが、ルールはしっかり守りましょう。