Die besten Spickzettel für die Datenwissenschaft

Wir haben eine Sammlung von Spickzetteln zusammengestellt, damit Sie sich mit den wichtigsten in der Datenwissenschaft verwendeten Bibliotheken auseinandersetzen können.

Sie sind nach den Bereichen gruppiert, für die jede Bibliothek konzipiert ist: Grundlagen, Datenbanken, Datenbearbeitung, Datenvisualisierung, Analyse, maschinelles Lernen, Deep Learning und Natural Language Processing (NLP).

Grundlagen

Wenn Sie gerade erst in die Welt der Datenwissenschaft einsteigen, ist es wichtig zu verstehen, wie mindestens zwei der grundlegenden Bibliotheken funktionieren: Python und NumPy. Diese beiden Bibliotheken werden während des gesamten Entwicklungsprozesses verwendet. Die dritte Bibliothek, Scipy, ist ein mathematisches Werkzeug, das komplexere Berechnungen als NumPy verarbeiten kann.

Python-Grundlagen

  • Ebene: Anfänger — Fortgeschrittene
  • Bereich: Grundlagen
  • Beschreibung: Python ist eine Standardbibliothek, auf der die Methodik der Datenwissenschaft entwickelt wurde. Die Art und Weise, wie wir ein Projekt angehen und strukturieren, haben wir von unserer Arbeitsweise in Python übernommen.
  • Quelle: DataQuest

NumPy Basics

SciPy

Datenbank

Daten können in Datensätzen oder manchmal in relationalen oder nicht relationalen Datenbanken gespeichert werden, die in die Arbeitsplattform importiert werden.

SQL

  • Ebene: Anfänger — Fortgeschrittene
  • Bereich: Relationale Datenbanken
  • Beschreibung: Relationale Datenbanken verwenden eine Struktur aus separaten Tabellen, die Daten effizienter speichern und mithilfe von Schlüsseln Beziehungen zwischen ihnen herstellen. SQL ist dank seiner Vielseitigkeit die beste Sprache für die Abfrage von Daten, die in diesen Tabellen gespeichert sind.
  • Quelle: sqltutorial
  • Spickzettel: https://www.sqltutorial.org/sql-cheat-sheet/

MongoDB

  • Ebene: Anfänger — Fortgeschrittene
  • Bereich: Nicht-relationale Datenbanken
  • Beschreibung: Nicht relationale Datenbanken werden immer beliebter, insbesondere aufgrund des Anstiegs von Big-Data-Unternehmen und Apps, da sie es ermöglichen, die Barrieren der Datenstrukturen relationaler Datenbanken zu überwinden. MongoDB ist führend bei verteilten Datenbanken.
  • Quelle: codecentric
  • Spickzettel: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf

Gefällt dir der Artikel? Dann lerne mehr über Data Analytics!

Gehe den ersten Schritt auf dem Weg in deine Tech-Karriere und finde mehr über unser Data Analytics Bootcamp heraus.

Datenbearbeitung

Bevor Sie mit der Datenanalyse beginnen, ist es wichtig, die Informationen des Datensatzes so zu organisieren, dass die erforderlichen Analysevorgänge einfacher durchgeführt werden können. Dieser Vorgang wird als Datenbearbeitung (Data Manipulation) bezeichnet.

Pandas

  • Ebene: Anfänger — Fortgeschrittene
  • Bereich: Datenbearbeitung
  • Beschreibung: Pandas ist die Bibliothek schlechthin für die Verarbeitung von Daten in DataFrames. Mit anderen Worten, sie ermöglicht uns, Datensätze zu lesen, Daten zu bearbeiten, zu gruppieren und sie so zu organisieren, dass unsere Analyse erleichtert wird. Dieser Spickzettel zeigt Ihnen einige wichtige Schritte, die Ihnen helfen, die Bibliothek zu benutzen.
  • Quelle: DataCamp
  • Spickzettel: http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3

Data Wrangling

  • Ebene: Anfänger — Fortgeschrittene
  • Bereich: Datenbearbeitung
  • Beschreibung: Vor der Durchführung einer Analyse ist es wichtig, den DataFrame zu bereinigen und unsere Daten zu organisieren, da wir manchmal doppelte, leere oder ungültige Datensätze finden. Das Bereinigen des DataFrame, damit wir ihn für unsere Analyse verwenden können, wird als Data Cleaning (Datenbereinigung) oder Data Wrangling (Datenaufbereitung) bezeichnet.
  • Quelle: pandas
  • Spickzettel: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Datenvisualisierung

Datenvisualisierung ist die grafische Darstellung von Daten und ist besonders wichtig für die Durchführung von Analysen oder die Darstellung von Analyseergebnissen, die uns helfen können, Trends, Ausreißer und Muster in den Daten zu erkennen.

Matplotlib

Seaborn

Folium

  • Ebene: Fortgeschritten
  • Bereich: Datenvisualisierung
  • Beschreibung: Im Bereich der Visualisierung sind Karten eine sehr nützliche Darstellungsform, mit der wir die georäumliche Positionierung und Entfernungen darstellen können. Folium ist eine Bibliothek, die es uns ermöglicht, Karten zu generieren und Daten aus einem Datensatz einfach darzustellen, indem wir eine Darstellung wie eine Mapbox oder OpenStreetMap rendern und Ebenen visueller Daten wie Clusterpunkte oder eine Heatmap hinzufügen.
  • Quelle: AndrewChallis

Maschinelles Lernen

Algorithmen für maschinelles Lernen ermöglichen es uns, Vorhersagen auf der Grundlage verfügbarer Daten zu treffen. Diese sind entweder als Regressions- oder Klassifizierungsalgorithmen bekannt, abhängig von der Art der betreffenden Daten. Diese Prozesse können überwacht oder nicht überwacht werden, je nachdem, ob das Modell des maschinellen Lernens mit markierten Daten trainiert wird oder nicht, was als „Grundwahrheit“ bezeichnet wird.

Scikit-Learn

Deep Learning

Im Bereich des maschinellen Lernens gibt es ein spezifischeres Gebiet, das als Deep Learning bekannt ist und künstliche neuronale Netze verwendet, um Vorhersagen zu treffen.

Keras

Tensorflow

  • Ebene: Fortgeschritten
  • Bereich: Deep Learning
  • Beschreibung: Dies ist eine Deep-Learning-Bibliothek der zweiten Generation, die von Google entwickelt wurde. Sie ermöglicht den Nutzern die Erstellung von Modellen über eine API mit einer unteren oder oberen Abstraktionsschicht, die je nach Vorliebe des Nutzers mathematische Operationen oder neuronale Netze skizziert.
  • Quelle: Altoros
  • Spickzettel: https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png

PyTorch

  • Ebene: Fortgeschritten
  • Bereich: Deep Learning
  • Beschreibung: PyTorch ist eine von Facebook entwickelte Deep-Learning-Bibliothek. Sie ist eine der neuesten Bibliotheken auf dem Markt und bietet eine Schnittstelle für die Arbeit mit Tensoren zu einem günstigeren Preis als TensorFlow oder Keras.
  • Quelle: PyTorch
  • Spickzettel: https://pytorch.org/tutorials/beginner/ptcheat.html

Natural Language Processing (NLP)

Im Bereich der Datenwissenschaft gewinnt die Sprachanalyse zunehmend an Boden, mit Algorithmen, die entwickelt wurden, um uns bei der Analyse von Text zu helfen.

NLTK

spaCy

  • Ebene: Fortgeschritten
  • Bereich: NLP
  • Beschreibung: spacY ist eine Bibliothek zur Verarbeitung natürlicher Sprache, die Texte auf unterschiedlichen Ebenen analysiert: NER (Name, Entität, Erkennung), Parser (syntaktische Analyse) oder Ähnlichkeit, aus einem in einer Sprache trainierten Modell. Sie ermöglicht uns auch, Modelle von Grund auf mit unseren eigenen Beispielen zu erstellen, die die von uns definierten Entitäten erkennen.
  • Quelle: DataCamp
  • Spickzettel: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06

Diese Spickzettel enthalten die nützlichsten Funktionen und Arbeitsmethoden jeder Bibliothek, die Sie bei Ihren täglichen Entwicklungsaufgaben unterstützen. Frohes Programmieren!

Komm zu Ironhack

Bereit, ein Teil zu werden?

Folge in die Fußstapfen von mehr als 10.000 Quereinsteigern und Unternehmern, die ihre Karriere in der Tech-Branche mit Ironhacks Bootcamps gestartet haben.

Kurse

Welchen Kurs möchtest du wählen?

Campus

Wo möchtest du lernen?

Blog-Beiträge über Data Analytics

Unterschiede zwischen Data Analytics (Datenanalyse) und Data Mining (Datengewinnung)

Weiterlesen...

Was ist der Unterschied zwischen Business Intelligence und Business Analytics?

Weiterlesen...

Der beste Weg, um Data Analytics zu erlernen

Weiterlesen...
Working from home

Heimarbeit? Die häufigsten Fragen vor der Selbstständigkeit

Weiterlesen...
Ironhack Online bootcamp Python

Was ist Python? Lernen Sie die Top 3 Anwendungen für die Python-Programmierung kennen

Weiterlesen...

Wie arbeiten Webentwickler mit Datenanalysten zusammen?

Weiterlesen...
Bleibe über die neuesten Nachrichten und Veranstaltungen auf dem Laufenden. Melden dich jetzt an!
Bitte, gebe deinen Namen ein
Bitte gebe deinen Nachnamen ein
Die E-Mail ist ungültig. Bitte versuche es erneut.

Mit meiner Bewerbung akzeptiere ich die Datenschutzhinweis und die Nutzungsbedingungen