La Data science Expliquée est une série de podcasts animée par UR4NVS qui a pour but de vulgariser la science des données et de la rendre accessible. Cette séri...
La tâche finale dans la construction d'un modèle de machine learning est l'évaluation avec les métriques telles que la précision, le rappel et la f-mesure. Des graphiques exploitant ces métriques existent et pour les amateurs de tableaux de nombres, les matrices de confusion existent également. Vous vous familiarisez aussi avec les notions de vrais positifs, faux positifs, vrais négatifs et faux négatifs dans ce podcast.
Matrice de confusion : https://fr.wikipedia.org/wiki/Matrice_de_confusion
Précision-rappel : https://fr.wikipedia.org/wiki/Pr%C3%A9cision_et_rappel
Courbe ROC : https://fr.wikipedia.org/wiki/Courbe_ROC
Représentations graphiques (scikit-learn.org) :
Matrice de confusion = https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_display_object_visualization.html#create-confusionmatrixdisplay
Courbe Précision-rappel = https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_display_object_visualization.html#create-precisionrecalldisplay
Courbe ROC = https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_display_object_visualization.html#create-roccurvedisplay
--------
7:02
La validation croisée
On peut très bien obtenir un bon score de notre algorithme mais est-il vraiment aussi bon dans la réalité ? La validation permet de répondre à cette question en utilisant des méthodes bien spécifiques pour les jeux d'apprentissage et de test. Différents algorithmes seront présentés ainsi que leur utilisation spécifique aux situations.
Validation croisée (Wikipédia) : https://fr.wikipedia.org/wiki/Validation_crois%C3%A9e
--------
3:08
Regarder vers l'avenir et vers le feature engineering
Feature engineering, cette méthode permettant de traiter les jeu de données est considérer comme l'avenir des data scientist. Face à une montée croissante de l'automatisation, le feature engineering restera le domaine où l'humain fait toute la différence. Découvrez comment dans ce podcast !
Exemple de feature engineering en Python : https://scikit-learn.org/stable/auto_examples/applications/plot_cyclical_feature_engineering.html
--------
6:16
XGBoost ou booster un arbre
Parlons aujourd'hui de XGBoost, algorithme d'arbre de décision mondialement connu et créé initialement en 2014 par Tianqi Chen. Il s'illustre par une méthode bien particulièrement pour produire autant de succès. Mais intéressons nous aussi aux arbres, forêt de décisions et aux renforcement par gradient.
XGBoost (Wikipedia) : https://en.wikipedia.org/wiki/XGBoost
XGBoost (site officiel) : https://xgboost.ai/
--------
4:52
Exporter et miniaturiser
Après avoir produit un algorithme de machine learning, pour le mettre en production il faut pouvoir l'intégrer à des machines moins puissantes. impossible de le ré-entraîner sur celles-ci mais fort heureusement il existe des solutions. Le physicien Erwin Schrödinger se demandait : "comment peut-on expliquer à l'aide de la physique et de la chimie le événements qui se produisent dans l'espace et dans le temps dans les limites spatiales d'un organisme vivant ?" et moi je vais tenter de vous expliquer ce phénomène appliqué au machine learning : comment intégrer des algorithmes conçus sur supercalculateurs dans nos téléphones ?
TensorFlow : https://www.tensorflow.org/
TensorFlow Lite : https://www.tensorflow.org/lite/
Core ML : https://developer.apple.com/documentation/coreml
PMML : http://dmg.org/pmml/v4-4-1/GeneralStructure.html
pickle : https://docs.python.org/3/library/pickle.html
La Data science Expliquée est une série de podcasts animée par UR4NVS qui a pour but de vulgariser la science des données et de la rendre accessible. Cette série de podcasts permettra également de réfléchir sur divers sujets concernant la science des données, notamment sur des aspects d'éthique ou de vie privée.