テキストマイニングに便利なWebアプリ
2024.11.19
 Webサイトに掲載された記事やレビューをKHcoderなどでテキストマイニングするとき、繰り返し表示されるメニューや注意書きなどが邪魔になることがあります。

 ここでは、「テキストを抽出したいhtmlファイルから必要な部分のテキストのみを抽出するアプリ(2種類)」と「テキストファイルから不要な文(複数行もOK)を除去するアプリ」を公開します。

◆htmlファイルからテキストを抽出するWebアプリ

「<p></p>タグで囲まれたテキスト(グルメサイトの口コミなど)を抽出」「<span></span>タグで囲まれたテキスト(巨大ネット書店のレビューなど)を抽出」「任意のタグで囲まれたテキストの抽出」をする3種類を用意しました。

 ブラウザにテキストを抽出したいWebサイトが表示されている状態で画面を右クリックし、「名前を付けて保存」してください。ファイル名は半角英数字を推奨します。

 保存したhtmlファイルを以下のアプリにアップロードし、「送信」ボタンをクリックしてください。「output.txt」というファイル名でテキストファイルが保存されます。必要に応じてファイル名を変更してください。

◆保存されたテキストファイルから不要な文(複数行もOK)を取り除く

 不要な文を含むテキストファイルをアップロードし、フォームに取り除きたい文を記入して「送信」ボタンをクリックしてください。「edited_ファイル名.txt」の名前が表示されますので、これをクリックし、保存してください。
time.png 2024.11.19 15:19 | pmlink.png 固定リンク | folder.png Tips
Excelにない関数を単語登録しよう!
2021.05.04
 統計計算には、SPSSやR、あるいはJS-Starや「こんにちは統計学」(笑)のような専用アプリやサイトを使いますが、さらりとExcelを使うことも少なくありません。

 ただしExcelの関数やデータ分析では足りないものもあります。

 その一つが「相関係数」を求めるときに不可欠の「無相関検定」です。Excelで相関係数を求めるには「CORREL関数」か「PEARSON関数」を使います。使い方と機能は、どちらも変わりません。しかし、ここで求められた相関係数が有意かどうかは無相関検定で確かめる必要があります。ところがExcelには無相関検定の関数がありません。

 そこで私は、無相関検定を確かめる計算式(関数)を漢字変換ソフトに単語登録して使っています。

 私は漢字変換にはATOKを使っていますが、「むそう(変換)」で、次の関数が表示できるよう単語登録しています。

=TDIST((ABS(S)*(SQRT(N-2)))/(SQRT(1-S^2)),N-2,2)

 それぞれの英字の意味は、次のとおりです。

  S = 相関係数
  N = データ数

 Excelの画面で相関係数とデータ数がわかっているときは、それぞれの英字の部分にセルの座標を入れてください。

 なお、「こんにちは統計学」では、「相関係数」を求める際、無相関検定も同時に計算してくれます。面倒でしたら、こちらをお使いください。

※Googleスプレッドシートでも使えます。

こんにちは統計学:ピアソンの積率相関係数と無相関検定
time.png 2021.05.04 03:27 | pmlink.png 固定リンク | folder.png Tips

- CafeLog -