Minitabブログ

テキストマイニングに興味をお持ちですか?新しいPython統合のあるMinitabを始めましょう! Interested in Text Mining? Get Started in Minitab with New Python Integration!

作成者: Mikhail Golovnya|2021/02/24 10:45:00

今日、コンテンツはどこにでもあり、どこからでもアクセスできます!Nielsenの調査によれば、成人したアメリカ人は1日11時間以上、メディアを読み、聴き、視聴し、やり取りしています。多くの人が自宅にこもっている今は、もっと長くなっているかもしれません。利用できるコンテンツの流入で、こんな疑問を持つかもしれません。利用できるテキストをもっと吟味できる定量的な方法はあるのか?

テキストマイニングは、テキストデータマイニングとも呼ばれる、テキストから質の高い情報を取得するプロセスです。最終的な目標は、定量的モデリングで使用できるテキスト変数から数値尺度を抽出することです。

なぜテキストマイニングは重要なのでしょうか?

Tテキストマイニングは、単純なパターンやとても複雑な感情分析を探すのに使用できます。基本統計は、単語が言及された回数や、すべて大文字の単語数を数えるなどの、単純な分析に使用できます。

要約統計を取得したら、棒グラフなどの視覚化を使用して、最も頻繁に出現する単語をグラフィックで表示したり、ワードクラウドで単語の強力なイメージを表示したりできます。製品や工程をめぐる感情や態度を把握したいときに、これは特に役立ちます。

Minitab Statistical Softwareの最新バージョンで、新しいPython統合を使ってテキストマイニングが可能になりました。



テキストに息吹を与える:ワインの口コミと逆文書頻度を利用

特定の種類のワインに関する5件の異なる口コミを分析する簡単な例を用いてみましょう。Pythonの呼び出しを使用してMinitabで分析を実行することにより、とても読みやすい要約統計の表を取得できます。以下のようになります。

ご覧のとおり、5件の口コミのうち、「wine(ワイン)」という単語が出現したのは3回、「love(愛)」という単語が出現したのは2回、他の単語はどれも出現回数が1回です。また、Minitabでは、それぞれの単語の逆文書頻度(IDF)が示されます。以下のように計算されます。

IDF = ln (N/DF)

N = 観測数(この場合、5は5件の合計の口コミです)、DF = 特定の単語が出現する文書数

数学的に言うと、単語がすべての観測値に出現する場合、IDF = 0になります。そのため、最も低いIDFの単語は最も多く出現し、観測数1の単語は、可能な限り高いIDFになります。

この場合、ワインは最も多く出現していますので、最も低いIDFです。この要約統計に基づき、ワインを愛する人はそうでない人よりも多く、概して、口コミは肯定的です。視覚化を求める方は、ワードクラウドでこのサンプル分析を見ることもできます。

ご覧のとおり、ワインは最も一般的、したがって最も大きな単語です。ワードクラウドを見ると、全体的な口コミから肯定的な印象を得ることができます。

ご自分でお試しください

テキストマイニングは、Minitabの新しいPythonのつながりを用いて行います。Pythonを使ったことがなくても、ご心配なく。Pythonのインストールおよび使い方をご提供しています(こちらで、Python統合の詳細をご覧ください)。拡張機能が正常にインストールされたら、簡単に、Minitabで標準のテキストマイニングタスクを続行できます。

MinitabでPythonを活用する方法をもっと知りたいですか?感情分析、単語の集合、潜在意味解析などのより高度な作業の詳細は、ヘルプの例をご確認またはMinitabまでご連絡ください!

新しいMinitabのPython統合を実際に見てみる