揭开机器学习中功能工程设计的神秘面纱 | Demystifying Feature Engineering for Machine Learning

Andrea Grgic | 29 October, 2021

主题: Machine Learning, Predictive Analytics, Minitab Statistical Software

假设您正在网上下单购物,这时看到与您正要购买的商品完美互补的推荐产品。您将该商品放入购物车,对自己的在线购物体验感到非常满意,而该品牌是如何根据您的上网习惯预测相关商品“正是您需要的产品”呢?或者,当您看完了最喜欢的 Netflix 连续剧而感到伤心后,平台却根据您刚刚看完的节目和之前在平台上观看的类型,立即向您发送可能想要继续观看的新片推荐,这又是一种怎样令人心醉的感觉呢?上述两个示例都展示了预测分析的强大功能,在这两个示例中企业可以分析当前和历史客户数据,从而对未来结果做出预测。可能不太明显的是,这些例子同时也展示了基于干净、精心选择的数据进行分析所具有的巨大作用。有什么方法能让预测模型功能更强大吗?有,运用功能工程设计。

尽管功能工程设计最近作为一个“热门话题”重新出现在数据分析领域,但它实际上并不是一个新概念,而是因为这是支持成功的机器学习预测分析的关键过程。随着您越来越多地了解功能工程设计,您可能也认识到这是一个称为数据操作预处理标准化的基本数据处理过程。

在本博客文章中,我们将深入了解功能工程设计的基础知识和重要性,同时,还将重点介绍如何才能在 Minitab Statistical Software 中为您的组织成功实施一些最常见的功能工程设计技术。

功能工程设计是什么?

要充分利用数据并定义最合适的预测模型,功能工程设计是至关重要的第一步。功能工程设计指的是使用过程相关知识及所产生的数据来提取可让预测模型发挥作用的属性或功能。功能通常以结构化列或属性的形式出现,并可以通过拆分功能合并功能创建新功能(重新编码)进行工程设计。要从预测模型中获得可能的最佳结果,干净、高质量的数据是确保正确的功能工程设计过程和模型性能准确性的关键。


FeatureEngineering-blog_img2-v3

功能工程设计为何重要?

探索和准备数据时,功能工程设计是重要的一步。

功能工程设计的优势:
1.帮助精确划分数据结构并确保数据集与机器学习算法兼容。
2.改进机器学习模型性能和准确度。
3.提供对数据更深入的了解,从而产生额外的深刻见解。

在 Minitab Statistical Software 中对类别数据应用功能工程设计的示例

Picture10

 

W实施功能工程设计的最佳技术是什么?

利用最适合您业务需求的技术并充分发掘数据价值。在白皮书中,您可以看到重点强调了您可以在 Minitab Statistical Software 中立即开始使用的七项功能工程设计技术。我们使用每项技术的过程并说明了如何在 Minitab Statistical Software 中成功运用这些技术。

Minitab 致力于协助过程专家、数据科学家和业务分析师等从业人员利用过程知识来找到数据驱动型解决方案,以解决其所面对的最严峻业务挑战。

准备好掌握七项功能工程设计技术了吗?

下载白皮书