🌟 Arbeitslos in Deutschland? Hol dir dein kostenloses Bootcamp - Mehr Info
Zurück zu allen Artikeln

5. Juni 2020 - 4 minutes

Die besten Spickzettel für die Datenwissenschaft

Whatever your area of development, knowing how to use the most useful functions of the library you're working with is going to make your life a lot easier.

Ironhack - Changing The Future of Tech Education

Data Science & Machine Learning

Wir haben eine Sammlung von Spickzetteln zusammengestellt, damit Sie sich mit den wichtigsten in der Datenwissenschaft verwendeten Bibliotheken auseinandersetzen können.

Sie sind nach den Bereichen gruppiert, für die jede Bibliothek konzipiert ist: Grundlagen, Datenbanken, Datenbearbeitung, Datenvisualisierung, Analyse, maschinelles Lernen, Deep Learning und Natural Language Processing (NLP).

Grundlagen

Wenn Sie gerade erst in die Welt der Datenwissenschaft einsteigen, ist es wichtig zu verstehen, wie mindestens zwei der grundlegenden Bibliotheken funktionieren: Python und NumPy. Diese beiden Bibliotheken werden während des gesamten Entwicklungsprozesses verwendet. Die dritte Bibliothek, Scipy, ist ein mathematisches Werkzeug, das komplexere Berechnungen als NumPy verarbeiten kann.

Python-Grundlagen

  • Ebene: Anfänger — Fortgeschrittene

  • Bereich: Grundlagen

  • Beschreibung: Python ist eine Standardbibliothek, auf der die Methodik der Datenwissenschaft entwickelt wurde. Die Art und Weise, wie wir ein Projekt angehen und strukturieren, haben wir von unserer Arbeitsweise in Python übernommen.

  • Quelle: DataQuest

NumPy Basics

SciPy

Datenbank

Daten können in Datensätzen oder manchmal in relationalen oder nicht relationalen Datenbanken gespeichert werden, die in die Arbeitsplattform importiert werden.

SQL

  • Ebene: Anfänger — Fortgeschrittene

  • Bereich: Relationale Datenbanken

  • Beschreibung: Relationale Datenbanken verwenden eine Struktur aus separaten Tabellen, die Daten effizienter speichern und mithilfe von Schlüsseln Beziehungen zwischen ihnen herstellen. SQL ist dank seiner Vielseitigkeit die beste Sprache für die Abfrage von Daten, die in diesen Tabellen gespeichert sind.

  • Quelle: sqltutorial

  • Spickzettel: https://www.sqltutorial.org/sql-cheat-sheet/

MongoDB

  • Ebene: Anfänger — Fortgeschrittene

  • Bereich: Nicht-relationale Datenbanken

  • Beschreibung: Nicht relationale Datenbanken werden immer beliebter, insbesondere aufgrund des Anstiegs von Big-Data-Unternehmen und Apps, da sie es ermöglichen, die Barrieren der Datenstrukturen relationaler Datenbanken zu überwinden. MongoDB ist führend bei verteilten Datenbanken.

  • Quelle: codecentric

  • Spickzettel: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf

 

Datenbearbeitung

Bevor Sie mit der Datenanalyse beginnen, ist es wichtig, die Informationen des Datensatzes so zu organisieren, dass die erforderlichen Analysevorgänge einfacher durchgeführt werden können. Dieser Vorgang wird als Datenbearbeitung (Data Manipulation) bezeichnet.

Pandas

  • Ebene: Anfänger — Fortgeschrittene

  • Bereich: Datenbearbeitung

  • Beschreibung: Pandas ist die Bibliothek schlechthin für die Verarbeitung von Daten in DataFrames. Mit anderen Worten, sie ermöglicht uns, Datensätze zu lesen, Daten zu bearbeiten, zu gruppieren und sie so zu organisieren, dass unsere Analyse erleichtert wird. Dieser Spickzettel zeigt Ihnen einige wichtige Schritte, die Ihnen helfen, die Bibliothek zu benutzen.

  • Quelle: DataCamp

  • Spickzettel: http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3

Data Wrangling

  • Ebene: Anfänger — Fortgeschrittene

  • Bereich: Datenbearbeitung

  • Beschreibung: Vor der Durchführung einer Analyse ist es wichtig, den DataFrame zu bereinigen und unsere Daten zu organisieren, da wir manchmal doppelte, leere oder ungültige Datensätze finden. Das Bereinigen des DataFrame, damit wir ihn für unsere Analyse verwenden können, wird als Data Cleaning (Datenbereinigung) oder Data Wrangling (Datenaufbereitung) bezeichnet.

  • Quelle: pandas

  • Spickzettel: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Datenvisualisierung

Datenvisualisierung ist die grafische Darstellung von Daten und ist besonders wichtig für die Durchführung von Analysen oder die Darstellung von Analyseergebnissen, die uns helfen können, Trends, Ausreißer und Muster in den Daten zu erkennen.

Matplotlib

Seaborn

Folium

  • Ebene: Fortgeschritten

  • Bereich: Datenvisualisierung

  • Beschreibung: Im Bereich der Visualisierung sind Karten eine sehr nützliche Darstellungsform, mit der wir die georäumliche Positionierung und Entfernungen darstellen können. Folium ist eine Bibliothek, die es uns ermöglicht, Karten zu generieren und Daten aus einem Datensatz einfach darzustellen, indem wir eine Darstellung wie eine Mapbox oder OpenStreetMap rendern und Ebenen visueller Daten wie Clusterpunkte oder eine Heatmap hinzufügen.

  • Quelle: AndrewChallis

Maschinelles Lernen

Algorithmen für maschinelles Lernen ermöglichen es uns, Vorhersagen auf der Grundlage verfügbarer Daten zu treffen. Diese sind entweder als Regressions- oder Klassifizierungsalgorithmen bekannt, abhängig von der Art der betreffenden Daten. Diese Prozesse können überwacht oder nicht überwacht werden, je nachdem, ob das Modell des maschinellen Lernens mit markierten Daten trainiert wird oder nicht, was als „Grundwahrheit“ bezeichnet wird.

Scikit-Learn

Deep Learning

Im Bereich des maschinellen Lernens gibt es ein spezifischeres Gebiet, das als Deep Learning bekannt ist und künstliche neuronale Netze verwendet, um Vorhersagen zu treffen.

Keras

Tensorflow

  • Ebene: Fortgeschritten

  • Bereich: Deep Learning

  • Beschreibung: Dies ist eine Deep-Learning-Bibliothek der zweiten Generation, die von Google entwickelt wurde. Sie ermöglicht den Nutzern die Erstellung von Modellen über eine API mit einer unteren oder oberen Abstraktionsschicht, die je nach Vorliebe des Nutzers mathematische Operationen oder neuronale Netze skizziert.

  • Quelle: Altoros

  • Spickzettel: https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png

PyTorch

  • Ebene: Fortgeschritten

  • Bereich: Deep Learning

  • Beschreibung: PyTorch ist eine von Facebook entwickelte Deep-Learning-Bibliothek. Sie ist eine der neuesten Bibliotheken auf dem Markt und bietet eine Schnittstelle für die Arbeit mit Tensoren zu einem günstigeren Preis als TensorFlow oder Keras.

  • Quelle: PyTorch

  • Spickzettel: https://pytorch.org/tutorials/beginner/ptcheat.html

Natural Language Processing (NLP)

Im Bereich der Datenwissenschaft gewinnt die Sprachanalyse zunehmend an Boden, mit Algorithmen, die entwickelt wurden, um uns bei der Analyse von Text zu helfen.

NLTK

spaCy

  • Ebene: Fortgeschritten

  • Bereich: NLP

  • Beschreibung: spacY ist eine Bibliothek zur Verarbeitung natürlicher Sprache, die Texte auf unterschiedlichen Ebenen analysiert: NER (Name, Entität, Erkennung), Parser (syntaktische Analyse) oder Ähnlichkeit, aus einem in einer Sprache trainierten Modell. Sie ermöglicht uns auch, Modelle von Grund auf mit unseren eigenen Beispielen zu erstellen, die die von uns definierten Entitäten erkennen.

  • Quelle: DataCamp

  • Spickzettel: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06

Diese Spickzettel enthalten die nützlichsten Funktionen und Arbeitsmethoden jeder Bibliothek, die Sie bei Ihren täglichen Entwicklungsaufgaben unterstützen. Frohes Programmieren!

  

Ähnliche Artikel

Für dich empfohlen

Bereit zum Beitritt?

Mehr als 10,000 Quereinsteiger und Unternehmer haben ihre Karriere in der Tech-Branche mit den Bootcamps von Ironhack gestartet. Beginnen Sie Ihre neue Karrierereise und schließen Sie sich der Tech-Revolution an!

Ich akzeptiere die Nutzungsbedingungen und die Datenschutzerklärung