Der Minitab Blog

Tutorial für die Verwendung der Python-Integration mit Automatisierung und Data Scraping

Geschrieben von Nick Jones and Joseph Yose | 13.03.2022 22:34:08

A Tutorial for Using Minitab's Python Integration, with Automation and Data Scraping

In diesem Blog-Artikel erfahren Sie anhand eines praktischen Beispiels, wie einfach Sie die Funktionen der Minitab Statistical Software mit Python-Skripts erweitern können.

Was ist Python?>

Zunächst stellt sich die Frage: Was ist Python überhaupt? Wir sprechen hier nicht über Reptilien. Python ist eine der wichtigsten Open-Source-Programmiersprachen und findet sich in fast allen Datenwissenschaftsprojekten wieder.

Die Einsatzmöglichkeiten sind äußerst vielfältig, normalerweise wird Python aber für Folgendes eingesetzt:

  • Zugriff auf Daten aus vielen verschiedenen Quellen
  • Bearbeiten und Umstrukturieren von Daten
  • Bereitstellen von leistungsstarken Analyse- und Grafikfunktionen

Python ist so beliebt, weil es eine allgemeine und relativ leicht erlernbare Programmiersprache bietet und über eine Vielzahl von Bibliotheken und Paketen verfügt, die von der Python-Community entwickelt und geteilt werden.

  • Vorteile von Python:Die Leistungsfähigkeit von Python reicht für komplexeste Anwendungen aus, und die Programmiersprache wird in der Industrie, in der Wissenschaft und im akademischen Bereich stark genutzt. Hiermit können Aufgaben automatisiert, Analysen durchgeführt und Visualisierungen erstellt werden. Dieser reichhaltige Funktionsumfang und die große Benutzer-Community, in der praktische Funktionen ausgetauscht werden und in der sich die Nutzer gegenseitig unterstützen, machen die Stärke von Python aus.
  • Nachteil von Python:Der größte Nachteil von Python liegt darin, dass es sich um eine Programmiersprache handelt und es daher keine Benutzeroberfläche gibt, die sich leicht mit der Maus bedienen lässt. Statistische Analysen durchzuführen, ist deshalb zeitaufwändig und erfordert gute Kenntnisse in der Programmiersprache.

PYTHON-INTEGRATION IN MINITAB

Die Minitab Statistical Software ist ein Analyseprogramm, das jedem Nutzer mit wenigen Klicks Zugriff auf zuverlässige und leicht verständliche Analysen bietet. Sie müssen dafür nicht programmieren können. Durch die Python-Integration haben die Benutzer die Möglichkeit, Python-Skripts über die Desktop-Version der Minitab Statistical Software auszuführen, wenn zusätzliche Visualisierungen, Arbeitsschritte oder Analysen erforderlich sind. Mit Python-Skripts lassen sich die meisten Aufgaben bei der Datenanalyse ausführen sowie Grafiken und Visualisierungen direkt aus den Eingaben des Benutzers erstellen.

Tutorial: Web Scraping von COVID-19-Daten für die automatisierte Analyse

In diesem Tutorial führen wir Sie durch einige Beispiele, die zeigen, wie Ihr Unternehmen durch den kombinierten Einsatz von Minitab und Python profitieren kann.

Das Szenario: Während der COVID-19-Pandemie wurden riesige Mengen von Daten und Visualisierungen veröffentlicht. Dabei geht leicht der Überblick darüber verloren, welche Daten aus offiziellen Quellen stammen oder wie aktuell sie sind. In diesem Szenario sollen die aktuellen, von der britischen Regierung herausgegebenen COVID-19-Daten aussagekräftig visualisiert werden.

Das Ziel:Beeindruckende Visualisierungen bilden nicht immer die tatsächlichen Fakten ab, aber mit der Kombination aus Python und Minitab können wir schnell eine behördliche Datenquelle importieren und eigene Visualisierungen erstellen, denen wir vertrauen.

Zuerst laden wir die Daten von der Website der britischen Regierung herunter.

Dies wäre manuell möglich, würde aber lange dauern, und es gibt Einschränkungen dafür, wie viele Variablen jeweils heruntergeladen werden können. Daher setzen wir unsere Werkzeuge ein, um die Datenerfassung mit Data Scraping zu automatisieren.

Danach stellen wir die Daten in der Minitab Statistical Software mit einer in Python erstellten Visualisierung übersichtlich dar.

Durch die Kombination aus Minitab und Python können wir mehr erreichen als mit den beiden Produkten alleine. Mittels Automatisierung mit Python-Skripts werden zuverlässige und aktuelle Analysen und Visualisierungen erstellt.

Wir setzen die Python-Integration in Minitab also für Folgendes ein:

  • Skript einrichten, das die aktuellen COVID-Daten von der Website der britischen Regierung herunterlädt (Data Scraping)
  • COVID-Daten für die Analyse vorbereiten
  • Leistungsstarke Analysen mit Minitab durchführen

Haftungsausschluss: Das folgende Beispiel bezieht sich auf eine bestimmte URL auf der Website der britischen Regierung. Beachten Sie, dass das Beispiel nicht mehr funktioniert, wenn diese URL geändert oder entfernt wird.

MIT PYTHON ZU ERSTELLENDE VISUALISIERUNGEN

In dieser Übung möchten wir mit Python zwei Visualisierungen erstellen:

     1. Eine Heatmap der COVID-19-Fälle im Vereinigten

Königreich mit den aktuellen Daten: Diese Heatmap zeigt die Prävalenz von COVID-19-Fällen in den vier Landesteilen des Vereinigten Königreichs.

Das Python-Skript kann erweitert werden, um die Fallzahlen nach Kommunen zu zeigen sowie Trends und Ausbreitung in bestimmten Wohngebieten zu verfolgen. Geo-Mapping ist in Minitab noch nicht verfügbar, doch durch die Integration können solche Visualisierungen in ein Minitab-Projekt aufgenommen werden.

     2. Ein interaktives Sunburst-Diagramm: Dieser Diagrammtyp wird meistens dafür eingesetzt, hierarchische Beziehungen in Daten zu visualisieren. Das Diagramm zeigt den Prozentsatz der für eine Impfung infrage kommenden Bevölkerung, der geimpft wurde, und überwacht den Fortschritt bei der ersten und zweiten COVID-19-Impfung.

Sie können mitmachen und das Beispiel selbst durcharbeiten!

Erster Schritt: Holen Sie sich Ihre kostenlose Demoversion der Minitab Statistical Software

Nächste Schritte: Laden Sie über diesen Link das in diesem Beispiel verwendete Python-Skript und eine Anleitung herunter.

Bitte beachten: Vor der Integration muss der Benutzer selbst sicherstellen, dass das Python-Skript außerhalb von Minitab ausgeführt werden kann.

Los geht's!

Python-Integration in Minitab für die Übung einrichten

Wir gehen jetzt rasch die Schritte zum Installieren der Minitab-Desktop-Anwendung und der Python-Integration sowie zum Ausführen eines Skripts durch. Die Einrichtung ist recht technisch, daher haben wir zur Veranschaulichung eine Reihe von GIFs erstellt.

  1. Minitab Statistical Software installieren

Die Minitab Statistical Software ist als Desktop-Programm und als SaaS-Onlineanwendung („Software-as-a-Service“) im Browser verfügbar. Die Python-Integration ist derzeit nur in der Desktop-Version möglich.

In diesem GIF zeigen wir Ihnen, wie Sie die Desktop-Version von Minitab installieren:

  1. Python mit Anaconda installieren

Sie können die Anaconda-Distribution verwenden, die sich auf Windows-Computern ganz einfach installieren lässt. Anaconda bietet alle Python-Funktionen, die Sie in der Datenwissenschaft benötigen, in einem Paket. Dazu hören auch einige der am häufigsten verwendeten Drittanbieter-Bibliotheken.

So erfolgt die Anaconda-Installation:

 

3. Python-Modul „mtbpy“ installieren

Dieses Modul kann mit Hilfe von „pip“ ganz einfach installiert werden und ermöglicht die Kommunikation zwischen Python-Skripts und der Minitab Statistical Software.

 

  1. Minitab aus Anaconda ausführen

Um sicherzustellen, dass die Kommunikation zwischen Minitab und Python problemlos abläuft, sollten Sie Minitab in einer Anaconda-Umgebung ausführen. Dies ist allerdings optional, Sie können auch die Python-Standardinstallation verwenden.

  1. Minitab-Optionen festlegen

Geben Sie den Standardspeicherort zum Öffnen von Python-Skripts und Minitab-Dateien an. Wenn Sie dies nicht tun, sucht die Minitab Statistical Software unter Windows standardmäßig im Ordner „Eigene Dokumente“.

  1. Integration von Python und Minitab testen

Die Minitab Statistical Software stellt ein einfaches Python-Skript bereit, mit dem Sie testen können, ob die Integration richtig eingerichtet wurde.

Python-Skript in Minitab ausführen

Schrittweise Anleitung

Dies ist das Skript, das ausgeführt werden soll: Python-Skript herunterladen

*Vor der Integration muss jeder Benutzer selbst sicherstellen, dass das Python-Skript außerhalb von Minitab ausgeführt werden kann. 

Über diesen Link finden Sie Informationen zur Integration, u. a. eine detaillierte Anleitung zum Ausführen von Python-Skripts in Minitab:

Wenn Schwierigkeiten auftreten, hilft Ihnen der Minitab-Support gerne weiter.

How to run the script:

1.   Öffnen Sie die Anaconda-Eingabeaufforderung.

2.   Wechseln Sie zu Ihrem Minitab-Installationsordner, z. B. „Run >> cd C:\Programme\Minitab\Minitab 21“.

3.   Geben Sie Run >> mtb.exe ein, um Minitab zu öffnen.

4.    Legen Sie in Minitab mittels Datei > Optionen den Standardspeicherort für Dateien fest

5.    Rufen Sie die Minitab-Befehlszeile auf (Ansicht > Befehlszeile/Verlauf).

6.   Geben Sie in Spalte 1 die gewünschten Messwerte ein, wie unten dargestellt.

7.   Wählen Sie die folgenden Befehle aus, und kopieren Sie sie wie unten dargestellt in die Befehlszeile

PYSC "CovidDataByRegion.py" 

WOPEN "CovidDataByRegion.csv" 

8.    Klicken Sie in der Befehlszeile auf Ausführen.

Das Ergebnis: Von der Minitab Statistical Software automatisch aktualisierte Python-Visualisierungen

Das oben beschriebene Beispiel zeigt, dass Sie mit Hilfe der Python-Integration in Minitab:

  • statische Python-Visualisierungen
  • interaktive Python-Visualisierungen

im Ausgabefenster der Minitab Statistical Software verwenden können. 

Zum Automatisieren des gesamten Vorgangs können Sie auch ein Minitab-Makro verwenden. Ein Beispiel hierfür finden Sie im folgenden GIF:

 

Unser Expertenteam kann Ihnen helfen, Ihre Fähigkeiten zur Erstellung von benutzerdefinierten Analysen oder Diagrammen zu entwickeln. Wir können E-learning, Fern- oder Vor-Ort-Schulungen und statistische und datenwissenschaftliche Beratung. Weitere Informationen >