テキストマイニングに便利なWebアプリ
2024.11.19
 Webサイトに掲載された記事やレビューをKHcoderなどでテキストマイニングするとき、繰り返し表示されるメニューや注意書きなどが邪魔になることがあります。

 ここでは、「テキストを抽出したいhtmlファイルから必要な部分のテキストのみを抽出するアプリ(2種類)」と「テキストファイルから不要な文(複数行もOK)を除去するアプリ」を公開します。

◆htmlファイルからテキストを抽出するWebアプリ

「<p></p>タグで囲まれたテキスト(グルメサイトの口コミなど)を抽出」「<span></span>タグで囲まれたテキスト(巨大ネット書店のレビューなど)を抽出」「任意のタグで囲まれたテキストの抽出」をする3種類を用意しました。

 ブラウザにテキストを抽出したいWebサイトが表示されている状態で画面を右クリックし、「名前を付けて保存」してください。ファイル名は半角英数字を推奨します。

 保存したhtmlファイルを以下のアプリにアップロードし、「送信」ボタンをクリックしてください。「output.txt」というファイル名でテキストファイルが保存されます。必要に応じてファイル名を変更してください。

◆保存されたテキストファイルから不要な文(複数行もOK)を取り除く

 不要な文を含むテキストファイルをアップロードし、フォームに取り除きたい文を記入して「送信」ボタンをクリックしてください。「edited_ファイル名.txt」の名前が表示されますので、これをクリックし、保存してください。
time.png 2024.11.19 15:19 | pmlink.png 固定リンク | folder.png Tips

- CafeLog -