テキストマイニングに便利なWebアプリ
2024.11.19
Webサイトに掲載された記事やレビューをKHcoderなどでテキストマイニングするとき、繰り返し表示されるメニューや注意書きなどが邪魔になることがあります。
ここでは、「テキストを抽出したいhtmlファイルから必要な部分のテキストのみを抽出するアプリ(2種類)」と「テキストファイルから不要な文(複数行もOK)を除去するアプリ」を公開します。
◆htmlファイルからテキストを抽出するWebアプリ
「<p></p>タグで囲まれたテキスト(グルメサイトの口コミなど)を抽出」「<span></span>タグで囲まれたテキスト(巨大ネット書店のレビューなど)を抽出」「任意のタグで囲まれたテキストの抽出」をする3種類を用意しました。
ブラウザにテキストを抽出したいWebサイトが表示されている状態で画面を右クリックし、「名前を付けて保存」してください。ファイル名は半角英数字を推奨します。
保存したhtmlファイルを以下のアプリにアップロードし、「送信」ボタンをクリックしてください。「output.txt」というファイル名でテキストファイルが保存されます。必要に応じてファイル名を変更してください。
◆保存されたテキストファイルから不要な文(複数行もOK)を取り除く
不要な文を含むテキストファイルをアップロードし、フォームに取り除きたい文を記入して「送信」ボタンをクリックしてください。「edited_ファイル名.txt」の名前が表示されますので、これをクリックし、保存してください。
ここでは、「テキストを抽出したいhtmlファイルから必要な部分のテキストのみを抽出するアプリ(2種類)」と「テキストファイルから不要な文(複数行もOK)を除去するアプリ」を公開します。
◆htmlファイルからテキストを抽出するWebアプリ
「<p></p>タグで囲まれたテキスト(グルメサイトの口コミなど)を抽出」「<span></span>タグで囲まれたテキスト(巨大ネット書店のレビューなど)を抽出」「任意のタグで囲まれたテキストの抽出」をする3種類を用意しました。
ブラウザにテキストを抽出したいWebサイトが表示されている状態で画面を右クリックし、「名前を付けて保存」してください。ファイル名は半角英数字を推奨します。
保存したhtmlファイルを以下のアプリにアップロードし、「送信」ボタンをクリックしてください。「output.txt」というファイル名でテキストファイルが保存されます。必要に応じてファイル名を変更してください。
◆保存されたテキストファイルから不要な文(複数行もOK)を取り除く
不要な文を含むテキストファイルをアップロードし、フォームに取り除きたい文を記入して「送信」ボタンをクリックしてください。「edited_ファイル名.txt」の名前が表示されますので、これをクリックし、保存してください。