
La DataScience par la pratique
Par Didier Sampaolo, CTO chez lvlup.fr.
Voir sur Amazon : https://amzn.to/2VOEAHJ (lien d'affil)
Ce livre, édité chez Eyrolles, est une traduction en français de "Data Science from Scratch: First Principles with Python", édité lui aussi chez Eyrolles. Je l'ai acheté un peu par hasard : de temps en temps, j'achète en même temps quelques livres techniques, que je feuillette quand je n'ai vraiment pas envie de coder.
Niveau Data Science (au sens large : du graphique en barres jusqu'au deep learning), on va dire que je pars de loin. J'ai déjà bricolé des scripts en Python, installé TensorFlow et joué avec les exemples, et ça s'arrête plus ou moins là. J'ai réussi à bricoler quelques trucs sympa (reconnaître la race d'un chien depuis une photo, extraire les critères d'une classification faite par un humain, ...) mais, si je dois être franc, j'y suis arrivé plutôt par accident. Pourtant, c'est un sujet qui m'intéresse, et dont les applications pratiques ne manqueraient pas pour moi.
Bref, j'ai acheté "La DataScience par la pratique", et j'en suis plutôt content. Faisons bref: si votre niveau est plus élevé que le mien, passez votre chemin, le livre n'est vraiment pas fait pour vous. Par contre, si vous savez déjà un peu coder, et que le monde de l'analyse de données vous intéresse, vous y trouverez votre compte.
Le livre vous met dans la peau d'un jeune data scientist fraîchement recruté par un réseau social, convaincu par les bénéfices de l'analyse de données, mais où tout est à faire. Au fil des chapitres, on vous fournira les données nécessaires et on vous demandera des rapports concrets. Les exemples du livre s'appuient sur Python.
L'auteur n'a pas la prétention d'être exhaustif sur ce qu'il vous apprend, mais essaie plutôt de faire un tour d'horizon de ce à quoi une de vos journées pourrait ressembler si vous étiez data scientist débutant, et j'aime beaucoup cette approche. Le livre ne vous suffira pas pour afficher de nouvelles compétences sur Linkedin (quelqu'un fait encore vraiment ça, de nos jours ?) mais il vous donnera les clefs pour aller vous documenter efficacement.
Sommaire du livre
- Introduction
- Cours accéléré de Python (spécificités utiles pour la data science)
- Visualisation des données (matplotlib)
- Algèbre linéaire
- Statistique
- Probabilités
- Hypothèse et inférence (p-values)
- Descente de gradient
- Collecte des données (lecture de fichier, scrap, API, json...)
- Travail sur les données (nettoyage, transformation, réduction de dimensionnalité)
- Apprentissage automatique (machine learning)
- k plus proches voisins
- Classification naïve bayésienne (antispam)
- Régression linéaire simple
- Régression linéaire multiple
- Régression logistique
- Arbres de décision (entropie, random forest)
- Réseaux neuronaux (briser un CAPTCHA)
- Clustering
- Traitement automatique du langage naturel (n-grammes)
- Analyse des réseaux (PageRank)
- Systèmes de recommandation
- Bases de données et SQL
- MapReduce
- En avant pour la data science (ressources pour approfondir)
En bref
En bref, je recommande ce livre aux débutants en data science, qui ne savent pas par quel bout commencer. Après avoir disséqué l'ouvrage, vous aurez déjà une bonne idée de ce qu'on peut faire ou pas, et des outils basiques à votre disposition. Très bon point de départ pour comprendre le spirit ;)
Voir sur Amazon : https://amzn.to/368YSBm (lien d'affil)