Minitab博客

有兴趣了解文本挖掘?利用 Minitab 中的全新 Python 集成开启探索之旅!| Interested in Text Mining? Get Started in Minitab with New Python Integration!

Written by Mikhail Golovnya | 2022-1-18 15:03:00

现如今,内容无处不在,随时可供访问!尼尔森 (Nielsen) 的一项研究发现,美国成人每天用于阅读、聆听、观看媒体以及与媒体互动的时间超过 11 小时。当下大家宅在家中,想必这个数值只会更高。可用内容层出不穷,您或许会想知道:是否存在一种定量方式,让我们能够深入了解可用文本?

文本挖掘也称为文本数据挖掘,指的是从文本撷取高质量信息的过程,其终极目标是从文本变量中提取度量数值,供定量建模之用。

文本挖掘为何重要?

文本挖掘可用来找出简单的模式,也可用于复杂程度大得多的情感分析。可使用基本统计来进行简单的分析,如,对某个词被提及的次数进行计数,或者,计算出字母全大写词语的数量。

获得汇总统计后,可以通过条形图等可视化功能,以图形方式显示出现频率最高的词语;也可以通过文字云,以富表现力的图像显示这些词语。若需要感受人们对某款产品或某个过程的感觉和态度,这项功能尤为实用。

好消息!Minitab Statistical Software 最新版搭载全新 Python 集成,可供您充分利用文本挖掘!

让文本变得栩栩如生:探索葡萄酒评论和逆向文件频率

为方便说明,我们用一个简单的例子,分析对某葡萄酒的 5 个不同评论。通过 Minitab 调用 Python 来执行分析,您就可以拿到一份非常简单易懂的汇总统计表格,如下所示:


如您所看到的,在 5 个评论中,词语“葡萄酒 (wine)”出现了 3 次,词语“喜爱 (love)”出现了 2 次,而其他词语均只出现 1 次。Minitab 还会提供每个词语的逆向文件频率 (IDF),其计算方法如下:

IDF = ln (N/DF)

其中,N = 观测值数量(在这个案例中,总数 5 个评论中的全部评论),DF = 出现特定词语的文件数量。

从数学角度讲,若一个词语出现于所有观测值中,则其 IDF = 0。因此,IDF 最低的词语出现次数最多,而只出现在一个观测值中的词语的 IDF 最高。

在这个案例中,可以清晰看出,“葡萄酒 (wine)”的 IDF 最低,因为其出现次数最多。基于这些汇总统计,我们可以推断,喜欢葡萄酒的人比不喜欢的居多,而且在总体上,评论是正面的。

 

我们中有很多人偏好视觉资料,可以用文字云来查看此样本分析:

如您所见,“葡萄酒 (wine)”出现次数做多,因此字体最大;看一眼文字云即可看出总体评论呈正面。

亲自试一下

使用 Minitab 中的全新 Python 连接来实施文本挖掘。此前从未接触过 Python 也无妨,我们为您提供了 Python 安装和使用说明(在此处找到有关 Python 集成的全部必要信息)。成功安装扩展项后,便可以轻松在 Minitab 中持续执行标准文本挖掘任务。

希望进一步了解可通过 Minitab 中的 Python 实现的功能?查看我们的帮助示例与 Minitab 沟通,了解更高级的功能,例如,情感分析、词袋模型以及潜在语义分析!

查看全新 Minitab/Python 集成的动态演示