La DataScience par la pratique

Par Didier Sampaolo, CTO chez lvlup.fr.

Voir sur Amazon : https://amzn.to/2VOEAHJ (lien d'affil)

Ce livre, édité chez Eyrolles, est une traduction en français de "Data Science from Scratch: First Principles with Python", édité lui aussi chez Eyrolles. Je l'ai acheté un peu par hasard : de temps en temps, j'achète en même temps quelques livres techniques, que je feuillette quand je n'ai vraiment pas envie de coder.

Niveau Data Science (au sens large : du graphique en barres jusqu'au deep learning), on va dire que je pars de loin. J'ai déjà bricolé des scripts en Python, installé TensorFlow et joué avec les exemples, et ça s'arrête plus ou moins là. J'ai réussi à bricoler quelques trucs sympa (reconnaître la race d'un chien depuis une photo, extraire les critères d'une classification faite par un humain, ...) mais, si je dois être franc, j'y suis arrivé plutôt par accident. Pourtant, c'est un sujet qui m'intéresse, et dont les applications pratiques ne manqueraient pas pour moi.

Bref, j'ai acheté "La DataScience par la pratique", et j'en suis plutôt content. Faisons bref: si votre niveau est plus élevé que le mien, passez votre chemin, le livre n'est vraiment pas fait pour vous. Par contre, si vous savez déjà un peu coder, et que le monde de l'analyse de données vous intéresse, vous y trouverez votre compte.

Le livre vous met dans la peau d'un jeune data scientist fraîchement recruté par un réseau social, convaincu par les bénéfices de l'analyse de données, mais où tout est à faire. Au fil des chapitres, on vous fournira les données nécessaires et on vous demandera des rapports concrets. Les exemples du livre s'appuient sur Python.

L'auteur n'a pas la prétention d'être exhaustif sur ce qu'il vous apprend, mais essaie plutôt de faire un tour d'horizon de ce à quoi une de vos journées pourrait ressembler si vous étiez data scientist débutant, et j'aime beaucoup cette approche. Le livre ne vous suffira pas pour afficher de nouvelles compétences sur Linkedin (quelqu'un fait encore vraiment ça, de nos jours ?) mais il vous donnera les clefs pour aller vous documenter efficacement.

Sommaire du livre

  1. Introduction
  2. Cours accéléré de Python (spécificités utiles pour la data science)
  3. Visualisation des données (matplotlib)
  4. Algèbre linéaire
  5. Statistique
  6. Probabilités
  7. Hypothèse et inférence (p-values)
  8. Descente de gradient
  9. Collecte des données (lecture de fichier, scrap, API, json...)
  10. Travail sur les données (nettoyage, transformation, réduction de dimensionnalité)
  11. Apprentissage automatique (machine learning)
  12. k plus proches voisins
  13. Classification naïve bayésienne (antispam)
  14. Régression linéaire simple
  15. Régression linéaire multiple
  16. Régression logistique
  17. Arbres de décision (entropie, random forest)
  18. Réseaux neuronaux (briser un CAPTCHA)
  19. Clustering
  20. Traitement automatique du langage naturel (n-grammes)
  21. Analyse des réseaux (PageRank)
  22. Systèmes de recommandation
  23. Bases de données et SQL
  24. MapReduce
  25. En avant pour la data science (ressources pour approfondir)

En bref

En bref, je recommande ce livre aux débutants en data science, qui ne savent pas par quel bout commencer. Après avoir disséqué l'ouvrage, vous aurez déjà une bonne idée de ce qu'on peut faire ou pas, et des outils basiques à votre disposition. Très bon point de départ pour comprendre le spirit ;)

Voir sur Amazon : https://amzn.to/2VOEAHJ (lien d'affil)