Women reading content

现如今，内容无处不在，随时可供访问！尼尔森 (Nielsen) 的一项研究发现，美国成人每天用于阅读、聆听、观看媒体以及与媒体互动的时间超过 11 小时。当下大家宅在家中，想必这个数值只会更高。可用内容层出不穷，您或许会想知道：是否存在一种定量方式，让我们能够深入了解可用文本？

文本挖掘也称为文本数据挖掘，指的是从文本撷取高质量信息的过程，其终极目标是从文本变量中提取度量数值，供定量建模之用。

文本挖掘为何重要？

文本挖掘可用来找出简单的模式，也可用于复杂程度大得多的情感分析。可使用基本统计来进行简单的分析，如，对某个词被提及的次数进行计数，或者，计算出字母全大写词语的数量。

获得汇总统计后，可以通过条形图等可视化功能，以图形方式显示出现频率最高的词语；也可以通过文字云，以富表现力的图像显示这些词语。若需要感受人们对某款产品或某个过程的感觉和态度，这项功能尤为实用。

好消息！Minitab Statistical Software 最新版搭载全新 Python 集成，可供您充分利用文本挖掘！

让文本变得栩栩如生：探索葡萄酒评论和逆向文件频率

为方便说明，我们用一个简单的例子，分析对某葡萄酒的 5 个不同评论。通过 Minitab 调用 Python 来执行分析，您就可以拿到一份非常简单易懂的汇总统计表格，如下所示：

如您所看到的，在 5 个评论中，词语“葡萄酒 (wine)”出现了 3 次，词语“喜爱 (love)”出现了 2 次，而其他词语均只出现 1 次。Minitab 还会提供每个词语的逆向文件频率 (IDF)，其计算方法如下：

IDF = ln (N/DF)

其中，N = 观测值数量（在这个案例中，总数 5 个评论中的全部评论），DF = 出现特定词语的文件数量。

从数学角度讲，若一个词语出现于所有观测值中，则其 IDF = 0。因此，IDF 最低的词语出现次数最多，而只出现在一个观测值中的词语的 IDF 最高。

在这个案例中，可以清晰看出，“葡萄酒 (wine)”的 IDF 最低，因为其出现次数最多。基于这些汇总统计，我们可以推断，喜欢葡萄酒的人比不喜欢的居多，而且在总体上，评论是正面的。

我们中有很多人偏好视觉资料，可以用文字云来查看此样本分析：

如您所见，“葡萄酒 (wine)”出现次数做多，因此字体最大；看一眼文字云即可看出总体评论呈正面。

亲自试一下

使用 Minitab 中的全新 Python 连接来实施文本挖掘。此前从未接触过 Python 也无妨，我们为您提供了 Python 安装和使用说明（在此处找到有关 Python 集成的全部必要信息）。成功安装扩展项后，便可以轻松在 Minitab 中持续执行标准文本挖掘任务。

希望进一步了解可通过 Minitab 中的 Python 实现的功能？查看我们的帮助示例或与 Minitab 沟通，了解更高级的功能，例如，情感分析、词袋模型以及潜在语义分析！