As melhores folhas de referência de ciência de dados

Recolhemos uma colecção de folhas de referência para que possa conhecer as principais bibliotecas utilizadas na ciência dos dados.

Estão agrupados nos campos para os quais cada biblioteca foi concebida: Noções básicas, Bases de Dados, Manipulação de Dados, Visualização de Dados, Análise, Aprendizagem Automática, Aprendizagem Profunda e Processamento de Linguagem Natural (PNL).

Noções básicas

Se está apenas a começar no mundo da ciência dos dados, é importante compreender como funcionam pelo menos duas das bibliotecas básicas: Python e NumPy. Estas duas bibliotecas são utilizadas ao longo de todo o processo de desenvolvimento. A terceira biblioteca, Scipy, é uma ferramenta matemática que pode lidar com cálculos mais complexos do que a NumPy.

Noções básicas de Python

Nível: Principiante - Intermediário
Área: Noções básicas
Descrição: Python é uma biblioteca padrão sobre a qual a metodologia da ciência dos dados foi desenvolvida. A forma de abordar e estruturar um projecto é herdada da forma como trabalhamos em Python.
Fonte: DataQuest

Noções básicas de NumPy

Nível: Principiante - Intermediário
Área: Noções básicas
Descrição: NumPy é a biblioteca matemática Python por excelência (o seu nome é tirado de Numerical Python). Permite-nos trabalhar de forma mais eficiente com vectores e matrizes.
Fonte: DataCamp
Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf

SciPy

Nível: Avançado
Área: Noções básicas
Descrição: A biblioteca SciPy foi desenvolvida para trabalhar com a NumPy e foi concebida para cálculos numéricos mais complexos, mais estreitamente relacionados com a computação científica.
Fonte: DataCamp
Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_SciPy_Cheat_Sheet_Linear_Algebra.pdf

Base de dados

Os dados podem ser armazenados em conjuntos ou, por vezes, em bases de dados relacionais ou não relacionais que são importados para a plataforma de trabalho.

SQL

Nível: Principiante - Intermediário
Área: Bancos de dados relacionais
Descrição: as bases de dados relacionais utilizam uma estrutura de tabelas separadas que armazenam dados de forma mais eficiente e criam relações entre elas utilizando chaves. SQL é a melhor linguagem para consultar os dados armazenados nessas tabelas, graças à sua versatilidade.
Fonte: sqltutorial
Folha de referência: https://www.sqltutorial.org/sql-cheat-sheet/

MongoDB

Nível: Principiante - Intermediário
Área: Bancos de dados não relacionais
Descrição: as bases de dados não relacionais são cada vez mais populares, especialmente devido ao aumento de grandes empresas e aplicações de dados, uma vez que permitem ultrapassar as barreiras das estruturas de dados colocadas pelas bases de dados relacionais. MongoDB é o líder em bancos de dados distribuídos.
Fonte: codecêntrico
Folha de referência: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf

Manipulação de dados

Antes de começar com a análise de dados, é essencial organizar a informação do conjunto de dados para que seja mais fácil realizar as operações analíticas necessárias. Este processo é conhecido como manipulação de dados.

Pandas

Nível: Principiante - Intermediário
Área: Manipulação de dados
Descrição: Pandas é a biblioteca por excelência para o processamento de dados em DataFrames, por outras palavras, permite-nos ler registos, manipular dados, agrupá-los e organizá-los de forma a facilitar a nossa análise. Esta folha de referência mostra-lhe alguns passos essenciais para o ajudar a utilizar a biblioteca.
Fonte: DataCamp
Folha de referências: http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3

Conflito de dados

Nível: Principiante - Intermediário
Área: Manipulação de dados
Descrição: Antes de realizar uma análise, é importante limpar o DataFrame e organizar os nossos dados, uma vez que por vezes encontramos registos duplicados, nulos ou inválidos. O processo de limpeza do DataFrame para que possamos usá-lo em nossa análise é conhecido como Limpeza de Dados ou Organização de Dados.
Fonte: pandas
Folha de referência: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Visualização de dados

A visualização de dados é a representação gráfica dos dados e é particularmente importante para realizar análises ou retratar resultados de análises, o que nos pode ajudar a descobrir tendências, outliers e padrões nos dados.

Matplotlib

Nível: Principiante
Área: Visualização de dados
Descrição: matplotlib é a primeira biblioteca que foi desenvolvida para traçado de mapas e projecções em Python. Oferece uma enorme variedade de opções para desenhar gráficos e personalizá-los, desde as visualizações mais simples até às mais complicadas.
Fonte: DataCamp
Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf

Seaborn

Nível: Intermediário
Área: Visualização de dados
Descrição: A biblioteca Seaborn é mais avançada do que a matplotlib e foi desenvolvida para facilitar a análise estatística dos dados diretamente nos gráficos.
Fonte: DataCamp
Folha de referências: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf

Folium

Nível: Intermediário
Área: Visualização de dados
Descrição: Dentro do campo da visualização, os mapas são uma forma de representação muito útil que nos permite representar o posicionamento geo-espacial e as distâncias. Folium é uma biblioteca que nos permite gerar mapas e representar facilmente os dados de um conjunto de dados, tornando uma representação como uma mapbox ou OpenStreetMap e adicionando camadas de dados visuais como pontos de agrupamento ou um mapa térmico.
Fonte: AndrewChallis

Aprendizado de Máquina

Os algoritmos de aprendizagem de máquinas permitem-nos fazer previsões com base nos dados disponíveis. Estes são conhecidos ou como algoritmos de regressão ou de classificação, dependendo do tipo de dados em questão. Estes processos podem ser supervisionados ou não, dependendo de o modelo de aprendizagem da máquina ser ou não treinado utilizando dados etiquetados, o que é conhecido como "verdade em terra".

Scikit-Learn

Nível: Avançado
Área: Aprendizado de máquina
Descrição: Scikit-Learn é uma biblioteca desenvolvida em cima de SciPy e concebida para modelação de dados: agrupamento, manipulação de características, detecção de outlier, seleção e validação de modelos. É conhecido por ser robusto e fácil de integrar com outras bibliotecas Python.
Fonte: DataCamp
Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf

Aprendizagem Profunda

Dentro do campo da aprendizagem mecânica, existe um campo mais específico conhecido como aprendizagem profunda, que utiliza redes neurais artificiais para fazer previsões.

Keras

Nível: Avançado
Área: Inclinação profunda
Descrição: A biblioteca Keras está escrita em Python e é capaz de funcionar em cima de CNTK, TensorFlow e Theano, tornando possível gerar e avaliar modelos de redes neurais.
Fonte: DataCamp
Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf

Tensorflow

Nível: Avançado
Área: Aprendizagem profunda
Descrição: Esta é uma biblioteca de aprendizagem profunda de segunda geração desenvolvida pelo Google. Permite aos utilizadores criar modelos utilizando uma API com uma camada de abstração inferior ou superior, delineando operações matemáticas ou redes neurais, dependendo da preferência do utilizador.
Fonte: Altoros
Folha de referências: https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png

PyTorch

Nível: Avançado
Área: Aprendizagem profunda
Descrição: A PyTorch é uma biblioteca de aprendizagem profunda desenvolvida pelo Facebook. É uma das bibliotecas mais recentes no mercado e oferece uma interface para trabalhar com tensores a um preço mais acessível do que TensorFlow ou Keras, por exemplo.
Fonte: PyTorch
Folha de referência: https://pytorch.org/tutorials/beginner/ptcheat.html

Processamento de linguagem natural (PNL)

Dentro do campo da ciência dos dados, a análise linguística é uma área que está a ganhar cada vez mais terreno, com algoritmos que têm sido desenvolvidos para nos ajudar a analisar texto.

NLTK

Nível: Principiante - Intermediário
Área: PNL
Descrição: NLTK é uma das primeiras bibliotecas desenvolvidas para análise de linguagem natural e permite aos utilizadores realizar processos como tokenização, lematização (análise lemma), character ou word count, a fim de ler e compreender o texto em análise.
Fonte: Cheatography
Folha de referências: https://cheatography.com/murenei/cheat-sheets/natural-language-processing-with-python-and-nltk/

spaCy

Nível: Avançado
Área: PNL
Descrição: spaCy é uma biblioteca de processamento de linguagem natural que analisa textos a níveis diferentes: NER (nome, entidade, reconhecimento), parser (análise sintáctica) ou similaridade, a partir de um modelo treinado numa língua. Permite-nos também criar modelos do zero com os nossos próprios exemplos que reconhecem as entidades que definimos.
Fonte: DataCamp
Folha de referências: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06

Estas folhas de referências contêm as funções e métodos de trabalho mais úteis de cada biblioteca para o ajudar nas suas tarefas de desenvolvimento do dia-a-dia. Feliz Codificação!

Noções básicas

Noções básicas de Python

Noções básicas de NumPy

SciPy

Base de dados

SQL

MongoDB

Manipulação de dados

Pandas

Conflito de dados

Visualização de dados

Matplotlib

Seaborn

Folium

Aprendizado de Máquina

Scikit-Learn

Aprendizagem Profunda

Keras

Tensorflow

PyTorch

Processamento de linguagem natural (PNL)

NLTK

spaCy

Artigos Relacionados

Do Deep Learning ao ChatGPT: os bastidores dos LLM

Qual é a diferença entre um engenheiro de dados, um cientista de dados e um analista de dados?

Data Science vs. Data Analytics

Desbloquear o potencial da inteligência artificial: da aprendizagem automática à aprendizagem profunda

Aprendizagem automática vs. Aprendizagem profunda

Aprendizagem automática: o que é?

O que é Python? Aprenda os três melhores usos para a programação Python

Recomendado para você

O que é um Tech Lead? Responsabilidades, Competências e Percurso Profissional

Afinal, o que é UX Design? A evolução do Web Design

O que é um Gestor de Produto? Definição da função e competências necessárias

O que faz um Analista de Dados? Principais Responsabilidades e Competências Necessárias | Blogue Ironhack

Apoiar as mulheres na tecnologia: eis o que pode fazer

Descobre tudo o que um Web Developer pode fazer

ChatGPT para Web Developers

O que é e como começar no pentesting?

Front-end vs. Back-end: Quais as diferenças?

As melhores cidades europeias para começar num emprego em tecnologia

Campus em destaque: Lisboa

Qual é a diferença entre um engenheiro de dados, um cientista de dados e um analista de dados?

Pronto para te juntares a nós?