MinitabのPython統合および自動化とデータスクレイピングのチュートリアル
このブログは 現実世界のシナリオを通じて Pythonスクリプトを使用してMinitab Statistical Software の機能を拡張するのがどれだけ簡単かを示すものです。
PHYTHONとは何ですか?
最初に、Pythonとは何ですか?下手な冗談ではありません。Pythonは、多くのデータサイエンスプロジェクトの頂点に属する、トップクラスのオープンソースプログラミング言語の1つです。
Pythonの潜在的ユーザーは広範囲にわたります。一般的には以下で使用されます。
- 多くの異なったソースからのデータアクセス
- データの操作と再構成
- パワフルな分析とグラフィック関数の提供
Pythonが人気を集めているのは、比較的習得しやすい汎用プログラミング言語を提供しているからです。Pythonコミュニティが開発し、自由に共有できる広範なライブラリーやパッケージを備えています。
- Pythonの利点:Pythonは多くの複雑なアプリケーションに充分な効果を発揮し、産業界、科学、教育機関等で広く使用されています。タスクの自動化、分析の実施、そして可視化に使用することができます。Pythonの強みは、これら多くの機能が含まれていることと、手軽な関数を共有し、他のユーザーをサポートする強いユーザーコミュニティを持っていることです。
- Pythonの欠点:Pythonを使用する際の障害は、それがプログラミング言語であるために「カーソルを合わせて、クリック」するというインターフェースがないことです。その結果、アドホック統計分析は実施に時間が掛かってしまい、Python言語の充分な理解を必要とします。
MINITABとPYTHONの統合
Minitab Statistical Softwareはすべての方に信頼でき、コーディングすることなく、何回かクリックするだけで分析を簡単に理解することができるように設計された分析プログラムです。その Python統合は、追加の可視化、タスク、分析が必要になった時、Minitab Statistical SoftwareのデスクトッププログラムでPythonスクリプトを実行できるようにします。Pythonスクリプトは、多くのデータ分析タスクの実行や、ユーザー入力から直接グラフの作成や可視化の生成を行うために作成できます。
チュートリアル:自動解析用Covid-19データのウェブスクレイピング
このチュートリアルでは、あなたの組織に付加価値を付けるためにMinitabとPythonを組み合わせて使用する方法を示す幾つかの例を紹介します。
シナリオ:Covid-19のパンデミック中に大量のデータと可視化情報が共有されました。どのデータが公式な情報源からのものであるか、または最新のデータであるかどうかを追跡しようとしても混乱する場合があります。このシナリオでは、英国政府が公開した最新のCovid-19データを明確に視覚化します。
目標:魅力的な可視化は常に本当の事実を表現してはいませんが、PythonとMinitabがタンデムで動作することで、政府からのデータソースを素早く取り込んで、信頼できる独自の可視化を作成できます。
最初に、英国政府ウェブサイトからデータをダウンロードします。
これは手動でもできますが、そのプロセスは遅く、一度にどれだけの数値をダウンロードできるかには限度があります。従って、このデータスクレイピングを自動化するツールの力を使います。
第2に、Pythonを用いた可視化を使用してMinitab Statistical Softwareデスクトッププログラム内でデータを明確に可視化します。
MinitabとPythonを同時に使用することで、「単なる部品の寄せ集めよりも全体としてよりよくなる」ことを目的とします。信頼に足る、最新の分析および可視化をPythonスクリプトで自動的に生成します。
まとめると、Minitab Python統合を以下で使用します。
- 英国政府ウェブサイトより最新のCovidデータを自動的にダウンロード (別名データスクレイピング) するスクリプトをセットアップする
- 分析用にCovidデータを準備する
- その後Minitabエンジンのフルパワーを解き放つ
免責事項:下記の例は英国政府ウェブサイトの特定のURLを使用して機能します。もしURLが変更されたり、削除されたりした場合、この例は機能を停止することに留意してください。
PYTHONを用いた可視化の予想
この実践では、Pythonを用いた2つの可視化を目指します。
1. 最新データで更新される英国内のCovid-19症例ヒートマップ:このヒートマップは英国内4構成国でのCovid-19症例患者数を表示します。
Pythonスクリプトを拡張して、地域当局別の症例発生率を表示したり、流行を追跡したり、地域全体に拡大したりすることができます。Minitabでジオマッピングはまだ利用できないので、この可視化はMinitabプロジェクトに含まれるようにします。
2. 対話型サンバーストチャート: このタイプのチャートはデータの階層関係を視覚化するのに特に役に立ちます。チャートはワクチン接種者の人口比率を示し、1回目と2回目Covid-19予防接種の進捗をモニターします。
あなた自身でこれを実践してください!
無料トライアルのMinitab Statistical Softwareを入手してください
次の段階:リンクから、 この例で使用されているPythonスクリプトと手順をダウンロードします。
統合を試みる前に、Minitabの外部でPythonスクリプトを実行できることを確認するのはユーザーの責任であることに注意してください。
さあ始めましょう!
練習用にMinitab Python統合を設定する
Minitabデスクトップアプリケーションのインストール、Python統合のインストール、そしてスクリプトの実行の簡単なガイドを示します。この設定は多少技術的ですので、設定を簡略化するために短いGIFアニメにまとめました。
- Minitab Statistical Softwareをインストールする
現在では、Minitab Statistical SoftwareをデスクトッププログラムまたはブラウザのオンラインSaaSアプリケーション ( 「サービスとしてのソフトウェア」 ) として使用できます。 現時点では、Python統合はデスクトップ版と組み合わせた場合のみ利用可能です。
このGIFでは、Minitab デスクトップ版をどのようにインストールするかを示します。
- Anacondaを使用してPythonをインストールする
Windowsへのインストールが簡単なAnacondaディストリビューションを使用することができます。Anacondaは、Pythonからデータサイエンスに必要なものすべてを「そのまま使える」パッケージで提供することを目指しています。これには特に頻繁に使われている数々のサードパーティーライブラリーが含まれています。
Anacondaのインストールがどのようなものかお見せします。
3. Pythonモジュール - mtbpyをインストールする
このモジュールは、pipを使用して簡単にインストールでき、PythonスクリプトがMinitab Statistical Softwareと通信できるようにします。
- AnacondaからMinitabを実行する
MinitabとPython間の通信を確認するのは少しも難しくありません。我々はMinitabの実行はAnaconda環境で行うことを推奨します。しかし、デフォルトのPythonインストレーションでも正しく動作するので、この方法はオプションです。
- Minitab オプションを設定する
PythonスクリプトとMinitabファイルを開く場所をデフォルトファイルで指定します。そうしないとMinitab Statistical Softwareは、Windowsのデフォルトの場所である「マイドキュメント」を参照します。
- Python Minitab統合をテストする
Minitab Statistical Softwareは、統合が成功したかどうかをテストするために使用することができる簡単なPythonスクリプトを提供しています。
MinitabでPythonスクリプトを実行する方法
ステップバイステップガイド
実行するスクリプトであるPythonスクリプトをダウンロードします。
*統合を試す前にPythonスクリプトがMinitabの外でも実行できるか確認するのはユーザーの責任です。
MinitabでPythonスクリプトを実行する方法のステップバイステップガイドを含む統合についての情報にアクセスするにはこのリンクを使用します。
問題があれば、Minitabサポートに連絡してください。
スクリプトの実行方法:
1. Anacondaプロンプトを開きます。
2. ディレクトリをMinitabインストールフォルダに変更します。つまり、 >> cd C:\Program Files\Minitab\Minitab 20を実行します。
3. Minitabを開くため >> mtb.exeを実行します。
4. Minitabのファイル > オプションでデフォルトのファイル位置をセットします。
5. ビュー > コマンドライン/履歴でMinitabのコマンドラインを表示します。
6. 下記に示すようにコラム1に関心のある指標を入力します。
7. 下記に示すコマンドを選択して、コマンドラインにコピーします。
PYSC "CovidDataByRegion.py"
WOPEN "CovidDataByRegion.csv"
8. コマンドラインペインで実行をクリックします。
最終結果:Python可視化がMinitab Statistical Softwareによって自動的に更新されます
上記で作成したこの例では、
- Python静止画像
- 対話型Python画像
が、Minitab Python統合を使用して、Minitab Statistical Softwareの出力ペインに表示されます。
全手順を自動化するには、Minitabマクロを使用します。この例は下記のGIFに示されています。
Minitab Statistical SoftwareでPythonの無限の可能性を楽しんでください。この使用事例はあなた自身で試してください。Minitab Statistical Softwareの30日間無料トライアルを入手!