Les meilleures antisèches en matière de science des données

Nous avons rassemblé une série d'antisèches pour vous permettre de vous familiariser avec les principales bibliothèques utilisées en science des données.

Ils sont regroupés selon les domaines pour lesquels chaque bibliothèque est conçue: Notions de base, bases de données, manipulation de données, visualisation de données, analyse, apprentissage automatique, apprentissage profond et traitement du langage naturel (NLP).

Notions de base

Si vous débutez dans le monde de la science des données, il est important de comprendre le fonctionnement d'au moins deux des bibliothèques de base : Python et NumPy. Ces deux bibliothèques sont utilisées tout au long du processus de développement. La troisième bibliothèque, Scipy, est un outil mathématique qui peut gérer des calculs plus complexes que NumPy.

Notions de base de Python

  • Niveau: Débutant - Intermédiaire
  • Domaine: Notions de base
  • Description: Python est une bibliothèque standard sur laquelle la méthodologie de la science des données a été développée. La manière d'aborder et de structurer un projet est héritée de la façon dont nous travaillons sur Python.
  • Source: DataQuest

Notions de base de NumPy

SciPy

Base de données

Les données peuvent être stockées dans des ensembles ou, parfois, dans des bases de données relationnelles ou non relationnelles qui sont importées dans la plateforme de travail.

SQL

  • Niveau: Débutant - Intermédiaire
  • Domaine: Bases de données relationnelles
  • Description: les bases de données relationnelles utilisent une structure de tableaux séparées qui stockent les données de manière plus efficace et créent des relations entre elles à l'aide de clés. SQL est le meilleur langage pour interroger les données stockées dans ces tableaux, grâce à sa polyvalence.
  • Source:sqltutorial
  • Antisèches: https://www.sqltutorial.org/sql-cheat-sheet/

MongoDB

  • Niveau: Débutant - Intermédiaire
  • Domaine: Bases de données non relationnelles
  • Description: les bases de données non relationnelles sont de plus en plus populaires, notamment en raison de l'essor des entreprises et des applications de big data, car elles permettent de surmonter les obstacles des structures de données que posent les bases de données relationnelles. MongoDB est le leader des bases de données distribuées.
  • Source: codecentric
  • Antisèche: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf

Vous appréciez cet article ? Apprenez en plus sur Data Analyse !

Faites le premier pas dans le monde de la technologie et découvrez notre bootcamp Data Analyse.

Manipulation des données

Avant de se lancer dans l'analyse des données, il est essentiel d'organiser les informations de l'ensemble des données afin de faciliter les opérations d'analyse nécessaires. Ce processus est connu sous le nom de manipulation des données.

Pandas

  • Niveau: Débutant - Intermédiaire
  • Domaine: Manipulation des données
  • Description: Pandas est la bibliothèque par excellence pour le traitement des données dans les DataFrames, en d’autres termes, elle nous permet de lire des enregistrements, de manipuler des données, de les regrouper et de les organiser de manière à faciliter notre analyse. Cette antisèche vous montre quelques étapes essentielles pour vous aider à utiliser la bibliothèque.
  • Source: DataCamp
  • Antisèche http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3

Enrichissement de données

  • Niveau: Débutant - Intermédiaire
  • Domaine: Manipulation des données
  • Description: Avant de procéder à une analyse, il est important de nettoyer le DataFrame et d'organiser nos données, car nous trouvons parfois des enregistrements en double, nuls ou invalides. Le processus de nettoyage du DataFrame afin de pouvoir l'utiliser pour notre analyse est connu sous le nom de Data Cleaning ou Data Wrangling.
  • Source: pandas
  • Antisèche: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Visualisation des données

La visualisation des données est la représentation graphique des données et est particulièrement importante pour effectuer des analyses ou présenter les résultats d'analyse, ce qui peut nous aider à découvrir des tendances, des valeurs aberrantes et des modèles dans les données.

Matplotlib

Seaborn

Folium

  • Niveau: Intermédiaire
  • Domaine: Visualisation des données
  • Description: Dans le domaine de la visualisation, les cartes sont une forme de représentation très utile qui nous permet de décrire le positionnement et les distances géospatiales. Folium est une bibliothèque qui nous permet de générer des cartes et de représenter facilement des données à partir d'un ensemble de données, en rendant une représentation telle qu'une mapbox ou OpenStreetMap et en ajoutant des couches de données visuelles comme des points groupés ou une carte thermique.
  • Source: AndrewChallis

Apprentissage automatique

Les algorithmes d'apprentissage automatique nous permettent de faire des prédictions sur la base des données disponibles. Ils sont connus sous le nom d'algorithmes de régression ou de classification, selon le type de données en question. Ces processus peuvent être supervisés ou non supervisés, selon que le modèle d'apprentissage automatique est entraîné ou non à l'aide de données étiquetées, connues sous le nom de «ground truth».

Scikit-Learn

Apprentissage profond

Dans le domaine de l'apprentissage automatique, il existe un domaine plus spécifique appelé apprentissage profond, qui utilise des réseaux neuronaux artificiels pour faire des prédictions.

Keras

Tensorflow

  • Niveau: Avancé
  • Domaine: Apprentissage profond
  • Description: Il s'agit d'une bibliothèque d'apprentissage profond de deuxième génération développée par Google. Il permet aux utilisateurs de créer des modèles à l'aide d'une API avec une couche d'abstraction inférieure ou supérieure, décrivant des opérations mathématiques ou des réseaux neuronaux, selon la préférence de l'utilisateur.
  • Source: Altoros
  • Antisèche
    https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png

PyTorch

  • Niveau: Avancé
  • Domaine: Apprentissage profond
  • Description: PyTorch est une bibliothèque d’apprentissage profond développée par Facebook. C'est l'une des bibliothèques les plus récentes du marché et elle offre une interface pour travailler avec les tenseurs à un prix plus abordable que TensorFlow ou Keras, par exemple.
  • Source: PyTorch
  • Antisèche: https://pytorch.org/tutorials/beginner/ptcheat.html

Traitement du langage naturel (NLP)

Dans le domaine de la science des données, l'analyse du langage est un domaine qui gagne de plus en plus de terrain, avec des algorithmes qui ont été développés pour nous aider à analyser le texte.

NLTK

spaCy

  • Niveau: Avancé
  • Domaine: NLP
  • Description: spaCy est une bibliothèque de traitement du langage naturel qui analyse les textes à différents niveaux : NER (reconnaissance de noms, d'entités), analyse syntaxique ou similarité, à partir d'un modèle formé dans une langue. Elle nous permet également de créer des modèles à partir de zéro avec nos propres exemples qui reconnaissent les entités que nous définissons.
  • Source: DataCamp
  • Antisèche: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06

 Ces antisèches contiennent les fonctions et les méthodes de travail les plus utiles de chaque bibliothèque pour vous aider dans vos tâches de développement quotidiennes. Bon codage!

Rejoignez Ironhack

Prêt à nous rejoindre ?

Des milliers d'entrepreneurs et des personnes en reconversion professionnelle ont lancé leur carrière dans l'industrie du numérique après avoir suivi les bootcamps d'Ironhack.

Formations

Quelle formation souhaitez-vous suivre ?

Campus

Où souhaitez-vous vous former?

Quelques articles à propos de la formation en Data Analyse

Ironhack Online bootcamp Python

Qu’est-ce que Python? Découvrez les 3 meilleures utilisations de la programmation Python

En savoir plus ...

Découvrez les bases de l’analyse des données: Introduction à SQL

En savoir plus ...
Data Analytics chart

Comment l’apprentissage de l’analyse des données peut changer votre vie

En savoir plus ...
Analyse des données avec Python

Analyse des données avec Python

En savoir plus ...
Ironhack analyste de données

Quelle est la différence entre un ingénieur de données, un scientifique de données et un analyste de données ?

En savoir plus ...
differences between data science and data analytics

Sciences des données et analyse des données : quelles différences ?

En savoir plus ...
Soyez les premiers informés de nos dernières actualités et événements en vous inscrivant à notre newsletter.
Veuillez écrire votre nom
Veuillez écrire votre nom
L'email n'est pas valide. Veuillez réessayer.

En postulant, j’accepte la Politique de confidentialité et les Conditions d’utilisation