Démystifier l'ingénierie des caractéristiques pour le Machine Learning

Andrea Grgic | 16 July, 2021

Les Sujets: Machine Learning, analyses predictives, Logiciel de statistiques, Article Vedette, Featured Article, Feature Engineering

Imaginez que vous êtes en train de passer une commande en ligne et que le site vous recommande un produit qui vient parfaitement compléter l'article que vous êtes sur le point d'acheter. Vous placez cet article dans votre panier, satisfait de votre expérience en ligne et de la façon dont la marque a été en mesure de vous proposer les articles connexes "dont vous aviez justement besoin" à partir de votre comportement sur le Web. Imaginez encore que vous venez de regarder, à votre grand désespoir, le tout dernier épisode de votre série préférée sur Netflix et que, dans la foulée, de nouveaux programmes susceptibles de vous plaire vous sont recommandés sur la base de cette série et des autres contenus que vous avez préalablement visionnés sur la plate-forme ? 

Ces deux exemples démontrent la puissance de l'analyse prédictive, qui permet aux entreprises d'analyser les données actuelles et historiques de leurs clients afin de prévoir les futurs résultats. Ils illustrent également de façon moins évidente, mais tout aussi pertinente, l'importance de disposer de données minutieusement sélectionnées et parfaitement préparées avant de réaliser vos analyses. 

Est-il possible de rendre un modèle prédictif encore plus puissant ? Oui, en ayant recours à l'ingénierie des caractéristiques. 

En réalité, l'ingénierie des caractéristiques n'est pas un nouveau concept, bien qu'il occupe le devant de la scène depuis peu dans l'univers de l'analyse de données. Il s'agit d'un procédé essentiel qui permet de réaliser efficacement des tâches de Machine Learninget des analyses prédictives. En vous intéressant d'un peu plus près à l'ingénierie des caractéristiques, vous pourrez également découvrir qu'elle compte parmi les principaux processus de gestion des données, au même titre que la manipulation des données, le prétraitement ou encore la normalisation. 

Dans cet article, nous allons nous intéresser aux principes fondamentaux de l'ingénierie des caractéristiques et à son importance. Nous vous expliquerons également comment mettre en oeuvre certaines des techniques les plus courantes dans ce domaine au sein de votre organisation avec le logiciel d'analyse de données Minitab. 

QU'EST-CE QUE L'INGÉNIERIE DES CARACTÉRISTIQUES ? 

Pour tirer pleinement parti de vos données et définir le modèle prédictif le plus approprié, commencez dans un premier temps par chercher du côté de l'ingénierie des caractéristiques. L'ingénierie des caractéristiques consiste à utiliser les connaissances d'un procédé et les données qui en découlent pour extraire des propriétés, ou caractéristiques, qui permettent le bon fonctionnement des modèles prédictifs. Une caractéristique se présente généralement sous la forme de colonnes structurées, ou attributs, et peut être conçue par division, combinaison ou création (recodage) de caractéristiques. Pour obtenir les meilleurs résultats possible à partir de votre modèle prédictif, il est essentiel de posséder des données de qualité, minutieusement préparées. Vous serez ainsi en mesure de garantir le bon fonctionnement de l'ingénierie des caractéristiques et la précision des performances du modèle. 
 

POURQUOI L'INGÉNIERIE DES CARACTÉRISTIQUES EST-ELLE IMPORTANTE ?  

L'ingénierie des caractéristiques est une étape importante lors de l'exploration et de la préparation des données. 

Les avantages de l'ingénierie des caractéristiques : 
        1. Elle permet de structurer les données de façon précise et assure la compatibilité du fichier de données avec l'algorithme d'auto-apprentissage par la machine. 
        2. Elle améliore les performances et la précision du modèle d'auto-apprentissage par la machine. 
        3. Elle vous aide à mieux comprendre vos données et à bénéficier ainsi d'informations supplémentaires. 

Exemple d'application de l'ingénierie des caractéristiques à des données de catégorie dans Minitab Statistical Software :

QUELLES SONT LES MEILLEURES TECHNIQUES POUR METTRE EN OEUVRE L'INGÉNIERIE DES CARACTÉRISTIQUES ?  

Utilisez les techniques qui répondent le mieux à vos besoins métiers et tirez pleinement parti de vos données. Notre chère Marilyn Wheatley, Solutions Architect chez Minitab, a identifié les sept techniques d'ingénierie des caractéristiques que vous pouvez commencer à utiliser dès aujourd'hui avec le logiciel d'analyse de données Minitab.

Dans ce livre blanc, Marilyn nous accompagne tout au long du processus d'utilisation de chaque technique et nous explique comment les appliquer correctement dans Minitab Statistical Software. 

Chez Minitab, nous aidons les utilisateurs comme les experts en procédés, les data scientists et les analystes des systèmes de gestion à exploiter les connaissances des procédés pour leur permettre de relever les défis métiers les plus délicats. 

Vous souhaitez maîtriser les sept techniques d'ingénierie des caractéristiques ? 

Je consulte le livre blanc sur L'ingénierie des caractéristiques