Comment démarrer en data science avec 5 projets simples

Les 5 projets sélectionnés couvrent toutes les étapes clés de la data science, de la collecte à la mise en production d’un modèle, idéals pour débuter en pratique. Découvrez comment apprendre en construisant, sans théorie lourde ni dispersion.

3 principaux points à retenir.

Apprendre en pratiquant est la méthode la plus efficace pour maîtriser la data science.
Maîtriser les bases du nettoyage, exploration, visualisation et feature engineering est indispensable avant le machine learning.
Déployer un modèle en appliquant permet de transformer la théorie en compétences concrètes et opérationnelles.

Pourquoi commencer par le nettoyage des données

Le nettoyage des données, c’est le socle sur lequel se construisent tous les projets en data science. Imagine un artisan qui bâtit une maison sur un terrain instable : il risque de tout faire s’effondrer à la première tempête ! Ainsi, avant de plonger tête la première dans l’analyse, il faut d’abord s’assurer que nos données soient prêtes à l’emploi. Christine Jiang, une analyste de données talentueuse, a développé un cadre simple mais efficace pour ce nettoyage, qui s’appelle le cadre CLEAN.

Identifier les problèmes solvables : Tout d’abord, sachez que toutes les anomalies ne sont pas invincibles. Commencez par faire un audit de vos données pour comprendre quelles erreurs peuvent être rectifiées facilement. Si un pays est omis dans une colonne de code pays, c’est souvent plus simple à corriger qu’une erreur d’interprétation liée à d’anciens systèmes.
Standardiser les valeurs : Une fois que vous connaissez les problèmes, il est crucial de standardiser les informations. Vos descriptions de produits peuvent varier : un même produit peut apparaître sous « Soda », « sodas » ou même « boisson gazeuse ». L’uniformité est la clé.
Documenter les ajustements : Tout bon data scientist sait qu’un bon suivi est nécessaire. Documentez chaque modification ! Que vous corrigiez des codes pays ou normalisiez des formats, il est essentiel de garder une traçabilité pour le futur.
Itérer pour la fiabilité des données : Le nettoyage des données n’est pas un sprint, mais un marathon. Ne vous attendez pas à ce qu’une seule itération soit suffisante. Reprenez vos données maintes fois ; les petites améliorations cumulées peuvent mener à de grands résultats.

Exemples concrets ? Imaginez que dans votre jeu de données, des enregistrements ne possèdent pas de code pays : corriger ceci permet non seulement de réduire les erreurs, mais également d’améliorer la qualité de l’analyse. Ou encore, traiter les descriptions inconsistantes des produits peut faire une différence considérable lors de la génération de rapports d’analyses. C’est en adoptant cette méthodologie que vous vous épargnerez des heures de nettoyage inutile et garantissez la qualité de vos données avant l’analyse.

En somme, le cadre CLEAN de Christine Jiang offre une approche pragmatique et structurée pour aborder le nettoyage des données. En apprenant à maitriser ces étapes, vous serez mieux armé pour transformer vos données brutes en informations exploitables et pertinentes. Pour ceux qui cherchent à explorer davantage des projets d’analytique des données, je vous recommande de consulter ce lien sur Coursera.

Comme on dit à Brive, un bon plan de marquage vaut mieux qu’un bon reporting ! Si besoin, consultez moi - faites appel à un super consultant en tracking client et server side.

Comment analyser les données avant le modèle

L’exploration des données est une étape cruciale avant de se lancer dans la modélisation, et pour ça, Pandas et Seaborn sont vos meilleurs alliés. Imaginez-vous comme un détective au milieu de chiffres, cherchant des indices précieux sur un tableau de maître. Votre première mission ? Analyser ces données pour en tirer des informations significatives.

Pour démarrer, familiarisez-vous avec la structure de vos données. Utilisez la fonction info() de Pandas pour examiner les types de données, le nombre d’entrées, et les colonnes disponibles. Cela vous donnera une vue d’ensemble de votre dataset. Par exemple :

import pandas as pd

df = pd.read_csv('votre_fichier.csv')
df.info()

Ensuite, passez à l’étape suivante : résumer les distributions. La méthode describe() vous fournit des statistiques descriptives pertinentes, comme la moyenne, l’écart type, et les quartiles. Cela vous aidera à comprendre la tendance générale de vos données. Regardez ce code :

df.describe()

Évitez de tomber dans le piège des valeurs manquantes et des outliers. Pour détecter les données manquantes, employez isnull().sum(). C’est essentiel pour garder votre modèle sur la bonne voie :

missing_values = df.isnull().sum()
print(missing_values)

Après avoir repéré et corrigé ces anomalies, il est temps de visualiser les relations entre les variables. Les graphiques de Seaborn comme les histogrammes et les scatter plots sont parfaits pour ça. Ils vous montrent comment les différentes caractéristiques de vos données interagissent. Par exemple :

import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(df['colonne'], kde=True)
plt.show()

Ces visualisations vous permettent de découvrir des patterns cachés, comme la présence d’une corrélation entre deux variables. Cela influence ensuite vos choix de modélisation. Chaque erreur d’interprétation peut entraîner des catastrophes lors de l’entraînement de votre modèle. En d’autres termes, la compréhension de vos données est l’armure qui vous protégera des erreurs fatales dans votre projet. Plus vous passerez de temps à explorer, mieux votre modèle sera préparé pour la bataille des données.

Comment créer de belles visualisations pour mieux comprendre

La data visualisation, c’est un peu comme la magie dans le monde de la data science. Tu possèdes des chiffres bruts, sombres et inertes. Mais dès que tu les transformes en graphiques, ils se métamorphosent en histoires fascinantes et percutantes. Pourquoi est-ce si crucial ? Parce qu’une image vaut mille mots, et dans le cas des données, une bonne visualisation peut t’aider à prendre des décisions éclairées rapidement.

Pour jongler avec ces graphiques, deux outils se distinguent : Pandas pour la manipulation des données et Plotly pour créer des visuels interactifs et esthétiques. Pandas te permettra de mettre de l’ordre dans tes données, de les préparer et de les structurer. Ensuite, tu pourras lever le voile sur l’expérience utilisateur en utilisant Plotly pour rendre tes graphiques dynamiques. Imagine un tableau de bord où l’on peut survoler un point pour comprendre d’où provient une donnée. C’est ce que Plotly peut faire pour toi.

Mais comment choisir le bon graphique ? C’est une question d’histoire à raconter. Pour des comparaisons, opte pour des barres. Si tu veux montrer des variations dans le temps, une courbe est ton allié. Et pour des relations entre deux variables, le graphique en dispersion (scatter) est roi. N’oublie pas les ajustements cruciaux : gérer les dates, traiter les outliers et peaufiner le formatage pour garantir une lisibilité optimale. Chaque détail compte !

Pour illustrer, voilà un exemple de code simple grâce à Plotly pour créer une visualisation interactive à partir d’un DataFrame Pandas :


import pandas as pd
import plotly.express as px

# Exemple de DataFrame
df = pd.DataFrame({
    "Année": [2020, 2021, 2022],
    "Ventes": [200, 300, 400]
})

# Création de l'intrigue
fig = px.line(df, x="Année", y="Ventes", title="Évolution des Ventes", markers=True)
fig.show()

Ce que tu obtiens est bien plus qu’un simple graphique ; c’est une invitation à explorer, à questionner et à découvrir. C’est lors de l’analyse exploratoire que la visualisation prend tout son sens, servant à communiquer des résultats de manière claire et impactante. Et n’oublie pas : un bon graphique, c’est la clé d’une bonne décision.

Pourquoi s’intéresser au feature engineering en machine learning

Quand on parle de machine learning, on croit souvent que les données brutes suffisent. Détrompez-vous ! C’est ici qu’intervient le feature engineering, cette étape cruciale qui transforme de simples données en variables pertinentes capable d’améliorer la performance de vos modèles. Si vous voulez que votre modèle brille, vous devez d’abord lui fournir des étoiles !

Le feature engineering, c’est essentiellement le processus de création de nouvelles fonctionnalités à partir des données de base pour mieux représenter le problème que vous essayez de résoudre. Voici quelques techniques essentielles :

Encodage de variables catégorielles : Transformez les catégories en valeurs numériques. Ça permet à votre modèle de comprendre des données qui, sinon, seraient inintelligibles. Par exemple, « Rouge », « Vert » et « Bleu » peuvent devenir 1, 2 et 3.
Traitement des données manquantes : Ne laissez pas vos trouées dans les données faire échouer vos analyses. Qu’il s’agisse de suppression, de remplissage ou d’utilisation de techniques d’imputation, chaque choix aura un impact sur le modèle.
Réduction dimensionnelle avec PCA : Principal Component Analysis est une technique qui réduit le nombre de variables tout en conservant l’essentiel des informations. C’est crucial pour éviter le bruit et simplifier le modèle.
Création de variables interactionnelles : Parfois, le croisement de deux variables peut apporter une nouvelle perspective. Le produit de l’âge et du revenu peut être plus prédictif que chacun pris individuellement !

Cependant, attention aux pièges ! Évitez la fuite de données (data leakage) où des informations du test se retrouvent dans l’entraînement, ce qui fausse vos résultats. Évitez également le sur-ajustement, où votre modèle devient trop complexifié pour les données d’entraînement et échoue sur le test.

Pour vous donner un exemple concret, voici comment vous pouvez encoder une variable et traiter les valeurs manquantes en Python :


import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer

# Exemple de données
data = {'Couleur': ['Rouge', 'Vert', None, 'Bleu'],
        'Prix': [10, 15, 20, None]}
df = pd.DataFrame(data)

# Traitement des valeurs manquantes
imputer = SimpleImputer(strategy='mean')
df['Prix'] = imputer.fit_transform(df[['Prix']])

# Encodage des variables catégorielles
labelencoder = LabelEncoder()
df['Couleur'] = labelencoder.fit_transform(df['Couleur'].astype(str))

print(df)

En maîtrisant le feature engineering, vous donnerez à votre modèle les meilleurs atouts pour briller. Pour aller plus loin, explorez ce sujet passionnant sur datascientest.

Comment déployer un modèle machine learning et faire des prédictions en temps réel

Déployer un modèle de machine learning dans le monde réel, c’est un peu comme mettre un chef-d’œuvre culinaire sur la table : vous devez le présenter de manière à ce qu’il soit non seulement savoureux, mais aussi accessible à vos convives. Streamlit se présente comme un outil puissant et accessible qui permet de transformer votre modèle en une application interactive en un temps record.

Tout commence par le chargement du modèle que vous avez méticuleusement entraîné. Ce modèle doit être sauvegardé au préalable, sous un format comme Pickle ou joblib, ce qui vous permettra de l’importer rapidement dans votre projet Streamlit. Ensuite, vous devez construire une interface utilisateur : des champs de saisie où les utilisateurs pourront entrer leurs données, un bouton pour lancer les prédictions, et des espaces pour afficher les résultats.

Parlons de la logique de prédiction. Après que l’utilisateur ait rempli les données nécessaires et cliqué sur le bouton de prédiction, votre code doit passer les données vers le modèle. C’est ici que le véritable « magie » opère : le modèle analyse les variables d’entrée et renvoie les résultats de manière instantanée. Ne négligez pas l’affichage des résultats ; utilisez des visualisations pour rendre les résultats plus compréhensibles. En intégrant Plotly, vous pouvez iriser votre projet avec des graphiques qui illustrent l’importance des variables, rendant vos prédictions non seulement fonctionnelles mais aussi visuellement engageantes.

Voici un squelette de code de base que vous pouvez utiliser :


import streamlit as st
import joblib
import plotly.express as px

# Charger le modèle
model = joblib.load('model.pkl')

# Interface utilisateur
st.title("Prédictions de Prix de Voiture")
input_value = st.number_input("Entrez la valeur de votre variable :")

if st.button("Prédire"):
    prediction = model.predict([[input_value]])
    st.write(f"Prédiction : {prediction}")

    # Visualisation des importances
    fig = px.bar(x=['Feature1', 'Feature2'], y=model.feature_importances_)
    st.plotly_chart(fig)

Pour gérer vos données, il est essentiel de bien séparer les données brutes de celles nettoyées, ce qui évite la confusion et facilite le déploiement. Pensez également à gérer les dépendances nécessaires pour votre application, en utilisant par exemple un fichier requirements.txt pour faciliter l’installation. Enfin, que vous choisissiez de faire fonctionner votre app localement ou de la mettre en ligne sur un serveur cloud, assurez-vous que l’expérience utilisateur reste fluide et rapide.

Le déploiement d’un modèle et sa mise à disposition à l’utilisateur final est une étape cruciale. La valeur ajoutée que vous apportez en rendant ce modèle accessible peut transformer vos prédictions en outils réellement exploitables dans le monde professionnel dynamique d’aujourd’hui. Pour voir Streamlit en action, ne manquez pas de consulter ce tutoriel vidéo qui démontre tout le potentiel de cet outil.

Cette approche pratique est-elle la clé pour apprendre efficacement la data science ?

En parcourant ces cinq projets, vous avez vu comment la data science se construit étape par étape : nettoyage rigoureux, exploration attentive, visualisation claire, ingénierie fine des données, et enfin déploiement pour usage concret. Cette méthode, alliant théorie et pratique, est la plus efficace pour maîtriser la discipline et développer des compétences immédiatement exploitables. À travers l’expérimentation et la réalisation complète d’un workflow, vous gagnez en assurance et compréhension, indispensables pour progresser. La data science n’est pas un mystère, elle s’apprend en travaillant sur des projets réels, concrets et motivants.

FAQ

Qu’est-ce qui différencie la data science du machine learning ?

La data science englobe l’ensemble du processus d’exploitation des données : collecte, nettoyage, analyse et visualisation, tandis que le machine learning n’en est qu’une partie spécifique axée sur la création de modèles prédictifs.

Pourquoi est-il crucial de bien nettoyer les données ?

Un bon nettoyage garantit la fiabilité des analyses et des modèles. Sans cela, les résultats peuvent être erronés, car les données bruitées ou incohérentes biaisent les algorithmes et les conclusions.

Quelle est l’importance du feature engineering ?

Le feature engineering améliore les performances des modèles en créant des variables plus pertinentes à partir des données brutes, ce qui permet d’augmenter la précision et la robustesse des prédictions.

Comment Streamlit facilite-t-il le déploiement ?

Streamlit permet de transformer rapidement un modèle machine learning en application web interactive, sans maîtrise approfondie du développement web, facilitant ainsi les tests et la présentation des prédictions en temps réel.

Par où commencer pour un débutant en data science ?

Se lancer avec des projets pratiques couvrant toutes les étapes du workflow : nettoyage des données, exploration, visualisation, feature engineering, puis modélisation et déploiement. Cela facilite la compréhension et la montée en compétences concrètes.

A propos de l’auteur

Franck Scandolera est consultant expert en Web Analytics, Data Engineering et IA générative, avec plus de dix ans d’expérience en optimisation data et formation professionnelle. Responsable de l’agence webAnalyste et de l’organisme Formations Analytics, il accompagne des acteurs variés en France et en Europe à structurer leurs data pipelines, automatiser leurs process et tirer profit de la donnée avec efficacité et pragmatisme. Son approche pédagogique privilégie la mise en pratique et des solutions métier adaptées, faisant de lui une référence pour maîtriser la data science dans un contexte professionnel exigeant.

Franck Scandolera

⭐ Expert et formateur en Tracking avancé, Analytics Engineering et Automatisation IA (n8n, Make) ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data & Analytics engineering : tracking propre RGPD, entrepôt de données (GTM server, BigQuery…), modèles (dbt/Dataform), dashboards décisionnels (Looker, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, Make, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.