关于使用 Minitab 的 Python 集成及自动化和数据抓取的教程
本博客将通过引导您了解一个真实的场景,展示使用 Python 脚本扩展 Minitab Statistical Software 的功能有多方便。
什么是 PYTHON?
首先,什么是 Python?我们不开关于爬行动物的玩笑,直接进行说明。Python 是顶级的开源编程语言之一,在大部分数据科学项目尖端领域都有应用。
虽然 Python 的潜在用途非常广泛,但它通常用于:
-
访问来自许多不同源的数据
-
对数据进行处理和重新构造
-
提供强大的分析和图形功能
Python 之所以广受欢迎,是因为它提供了一种相对易于学习的通用编程语言,并配有大量由 Python 社区开发和免费共享的库和包。
-
Python 优势:Python 对于最为复杂的应用而言足够强大,并广泛用于工业、科学和教育领域的功能。它可以用于自动化任务、执行分析和创建可视化。Python 的优势包括这些能力,以及它强大的用户社区,该社区共享易用的函数并为其他用户提供支持。
-
Python 缺点:使用 Python 的主要缺点是,因为它是一种编程语言,所以没有“点击式”界面。因此,执行临时统计分析耗时较长,并且需要很好地理解 Python 语言。
PYTHON 与 MINITAB 的集成
Minitab Statistical Software 是一款分析程序,旨在让每个人仅需单击几下即可访问可靠、易于理解的分析,而无需编码。它的 Python 集成 允许用户在需要其他可视化、任务或分析时,从 Minitab Statistical Software 的桌面程序运行 Python 脚本。可以创建 Python 脚本来执行大部分数据分析任务,或者直接从用户的输入生成图形和可视化。
教程:通过对新冠疫情数据进行 Web 抓取实现自动分析
在本教程中,我们将引导您完成一些示例来了解如何将 Minitab 和 Python 结合用于为您的组织增加价值。
场景:在新冠疫情期间,大量数据和可视化得以分享。了解哪些数据来自官方来源,或者数据有多新时,会造成混淆。在此场景中,我们需要英国政府发布的最新新冠疫情数据的清晰可视化。
目标:复杂的可视化并不总是描述确切的事实,但通过 Python 和 Minitab 的协同工作,我们可以快速从政府导入数据源,并创建我们自己信任的可视化!
首先,我们将从英国政府的网站下载数据。
我们可以手动下载,但是该过程很慢,而且一次可以下载的变量数存在限制。因此,我们将利用工具的强大功能,通过数据抓取实现自动下载!
然后,我们将使用 Python 支持的可视化,在 Minitab Statistical Software 桌面程序中清晰地可视化数据。
我们的目标是,通过结合使用 Minitab 和 Python,实现 1 + 1 大于 2!我们将通过 Python 脚本实现的自动化来生成可靠、最新的分析和可视化。
总之,我们将使用 Minitab Python 集成来实现:
- 设置脚本,用于自动从英国政府网站下载最新的新冠疫情数据(即数据抓取)
- 准备用于分析的新冠疫情数据
- 随后,释放 Minitab 分析引擎的全部潜能!
免责声明:下面的示例旨在使用英国政府网站的特定 URL。请注意,如果该 URL 发生更改或被删除,该示例将终止工作。
PYTHON 支持的预期可视化
在此项练习中,我们希望生成两个 Python 支持的可视化:
1.英国新冠病例热度图 并更新有最新数据:此热度图将显示英国四个地区的新冠病例流行情况。
Python 脚本可以扩展以显示地方当局的病例发生率,并用于跟踪趋势和在社区中的传播。地理图析在 Minitab 中尚不可用,因此该集成允许此类可视化包含在 Minitab 项目中。
2.交互式旭日图:这种类型的图表对于可视化数据的层次关系非常有用。图表显示已接种疫苗的符合资格人口的百分比,并监控第一次和第二次新冠疫苗接种的进展情况。
请参照下方内容,亲自尝试此项练习!
首先:获取 Minitab Statistical Software 免费试用版
后续步骤:从此链接下载本示例中使用的 Python 脚本以及说明。
请注意,在尝试集成之前,用户应负责确保 Python 脚本可以在 Minitab 之外运行。
让我们开始吧。
为练习设置 Minitab Python 集成
现在,我们将快速演示如何安装 Minitab 桌面应用程序、安装 Python 集成以及运行脚本。进行这些设置的技术性不强,因此我们创建了一系列简短的 GIF 图来简化设置。
- 安装 Minitab Statistical Software
如今,Minitab Statistical Software 提供桌面程序和浏览器中的在线 SaaS 应用(“软件即服务”)两种形式供您使用。 目前,Python 集成只能用于桌面版本。
在此 GIF 中,我们展示了如何安装 Minitab 的桌面版本:
- 通过 Anaconda 安装 Python
您可以使用易于安装在 Windows 计算机上的 Anaconda 发行版。Anaconda 旨在让您通过“开箱即用”的包从用于数据科学的 Python 中获得所需的一切。这包括很多它最常用的第三方库。
下面显示了 Anaconda 安装:
3. 安装 Python 模块 - mtbpy
此模块可以轻松地使用 pip 进行安装,并提供让 Python 脚本与 Minitab Statistical Software 通信的功能。
- 从 Anaconda 运行 Minitab
为了确保降低 Minitab 和 Python 之间通信的不确定性,我们建议在 Anaconda 环境中运行 Minitab。但是,您也可以忽略此建议,因为默认的 Python 安装也可以工作。
- 设置 Minitab选项
指定打开 Python 脚本和 Minitab 文件的默认文件位置,否则 Minitab Statistical Software 会在 Windows 默认位置“我的文档”中查找。
- 测试 Python Minitab 集成
Minitab Statistical Software 提供可用于测试集成是否成功的简单 Python 脚本。
如何在 Minitab 中运行 Python 脚本
分步指南
下面是我们要运行的脚本:下载此 Python 脚本
*在尝试集成之前,每位用户都应负责确保 Python 脚本可以在 Minitab 之外运行。
使用此链接访问有关集成的信息,包括有关如何在 Minitab 中运行 Python 脚本的分步指南:
如果您遇到困难,请联系 Minitab 支持,他们会很乐意帮助您。
如何运行脚本:
1. 打开 Anaconda Prompt
2. 将目录更改为您的 Minitab 安装文件夹,即运行 >> cd C:\Program Files\Minitab\Minitab 20
3. 运行 >> mtb.exe 以打开 Minitab
4. 在 Minitab 中设置默认文件位置 – 文件 > 选项
5. 显示 Minitab 的命令行 - 查看 > 命令行/历史记录
6. 按如下所示在第 1 列中输入相关度量
7. 选择以下命令并复制到命令行,如下所示。
PYSC "CovidDataByRegion.py"
WOPEN "CovidDataByRegion.csv"
8. 在“命令行”窗格中,单击运行
最终结果:由 Minitab Statistical Software 自动更新的 Python 可视化
我们在上面创建的示例演示了您可以通过利用 Minitab Python 集成,在 Minitab Statistical Software 的输出窗格中使用:
- 静态 Python 视觉效果
- 交互式 Python 视觉效果。
要使整个过程自动化,可以使用 Minitab 宏。下面的 GIF 展示了相关示例:
尽享 Python 与 Minitab Statistical Software 的无限可能性
亲自尝试此用例。免费试用 Minitab Statistical Software 30 天!