R pour les data sciences Importer, classer, transformer, visualiser et modéliser les données Coll. Blanche
Auteurs : Wickham Hadley, Grolemund Garrett
Les data sciences constituent une discipline fascinante, qui vous servira à transformer des données brutes en idées et connaissances aisément compréhensibles.
L'objectif de ce livre est de vous aider à maîtriser les outils essentiels qui vous permettront d'utiliser R dans la pratique des data sciences. Après l'avoir lu, vous pourrez faire face à la plupart des situations que vous rencontrerez dans vos projets, en exploitant au mieux les fonctionnalités de R.
Mais avant de devenir un expert en R, vous devrez tout d'abord importer vos données, c'est-à-dire les lire, en général depuis un fichier, une base de données ou une API web, et les charger dans un cadre de données dans R. Si vous ne pouvez pas transférer vos données dans R, vous ne pourrez pas les analyser ! Une fois vos données importées, vous gagnerez beaucoup à les ranger. Une fois vos données rangées, vous passerez bien souvent par une étape de transformation. Une fois vos données rangées avec les variables dont vous avez besoin, la génération de connaissances reposera principalement sur deux moteurs : la visualisation et la modélisation. Leurs forces et faiblesses sont complémentaires, et toute bonne analyse doit tenir compte des deux.
Inutile d'être un programmeur expert pour être un bon analyste de données, mais apprendre à programmer
Exploration
Visualisation de données avec ggplot2
Méthodes de
travail : bases
Transformation de données avec dplyr
Méthodes
de travail : scripts
Analyse exploratoire de données
Méthodes
de travail : projets
Démêlage
Les tibbles
Importation
de données avec readr
Rangement de données avec tidyr
Données
relationnelles avec dplyr
Chaînes de caractères avec stringr
Facteurs
avec forcats
Dates et heures avec lubridate
Programmation
Canaux
avec magrittr
Fonctions
Vecteurs
Itération avec purrr
Modélisation
Modèles
simples avec modelr
Construction de modèle
Plusieurs modèles
avec purrr et broom
Communication
R Markdown
Production de
graphes pour diffusion avec ggplot2
Formats de R Markdown
Méthodes
de travail avec R Markdown
Hadley Wickham est scientist en chef auprès de RStudio et membre de la fondation R. Il a conçu des outils pour rendre la data science plus accessible, rapide et fun.
Garrett Grolemund maintient quant à lui le package Shiny R. Il est data scientist et professeur au RStudio.
Date de parution : 08-2018
Ouvrage de 478 p.
19x23 cm
Thème de R pour les data sciences :
Mots-clés :
data sciences; big data; web; analyste de données; connaissances