Estuda agora, paga quando começares a trabalhar com o ISA - Para mais informações!
Voltar para todos os artigos

5 de junho de 2020 - 4 minutes

As melhores folhas de referência de ciência de dados

Whatever your area of development, knowing how to use the most useful functions of the library you're working with is going to make your life a lot easier.

Ironhack - Changing The Future of Tech Education

Data Science & Machine Learning

Recolhemos uma colecção de folhas de referência para que possa conhecer as principais bibliotecas utilizadas na ciência dos dados.

Estão agrupados nos campos para os quais cada biblioteca foi concebida: Noções básicas, Bases de Dados, Manipulação de Dados, Visualização de Dados, Análise, Aprendizagem Automática, Aprendizagem Profunda e Processamento de Linguagem Natural (PNL).

Noções básicas

Se está apenas a começar no mundo da ciência dos dados, é importante compreender como funcionam pelo menos duas das bibliotecas básicas: Python e NumPy. Estas duas bibliotecas são utilizadas ao longo de todo o processo de desenvolvimento. A terceira biblioteca, Scipy, é uma ferramenta matemática que pode lidar com cálculos mais complexos do que a NumPy.

Noções básicas de Python

  • Nível: Principiante - Intermediário

  • Área: Noções básicas

  • Descrição:  Python é uma biblioteca padrão sobre a qual a metodologia da ciência dos dados foi desenvolvida. A forma de abordar e estruturar um projecto é herdada da forma como trabalhamos em Python.

  • Fonte: DataQuest

Noções básicas de NumPy

  • Nível: Principiante - Intermediário

  • Área: Noções básicas

  • Descrição: NumPy é a biblioteca matemática Python por excelência (o seu nome é tirado de Numerical Python). Permite-nos trabalhar de forma mais eficiente com vectores e matrizes.

  • Fonte: DataCamp

  • Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf

SciPy

  • Nível: Avançado

  • Área: Noções básicas

  • Descrição: A biblioteca SciPy foi desenvolvida para trabalhar com a NumPy e foi concebida para cálculos numéricos mais complexos, mais estreitamente relacionados com a computação científica.

  • Fonte: DataCamp

  • Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_SciPy_Cheat_Sheet_Linear_Algebra.pdf

Base de dados

Os dados podem ser armazenados em conjuntos ou, por vezes, em bases de dados relacionais ou não relacionais que são importados para a plataforma de trabalho.

SQL

  • Nível: Principiante - Intermediário

  • Área: Bancos de dados relacionais

  • Descrição: as bases de dados relacionais utilizam uma estrutura de tabelas separadas que armazenam dados de forma mais eficiente e criam relações entre elas utilizando chaves. SQL é a melhor linguagem para consultar os dados armazenados nessas tabelas, graças à sua versatilidade.

  • Fonte: sqltutorial

  • Folha de referência: https://www.sqltutorial.org/sql-cheat-sheet/

MongoDB

  • Nível: Principiante - Intermediário

  • Área: Bancos de dados não relacionais

  • Descrição: as bases de dados não relacionais são cada vez mais populares, especialmente devido ao aumento de grandes empresas e aplicações de dados, uma vez que permitem ultrapassar as barreiras das estruturas de dados colocadas pelas bases de dados relacionais. MongoDB é o líder em bancos de dados distribuídos.

  • Fonte: codecêntrico

  • Folha de referência: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf

 

Manipulação de dados

Antes de começar com a análise de dados, é essencial organizar a informação do conjunto de dados para que seja mais fácil realizar as operações analíticas necessárias. Este processo é conhecido como manipulação de dados.

Pandas

  • Nível: Principiante - Intermediário

  • Área: Manipulação de dados

  • Descrição: Pandas é a biblioteca por excelência para o processamento de dados em DataFrames, por outras palavras, permite-nos ler registos, manipular dados, agrupá-los e organizá-los de forma a facilitar a nossa análise. Esta folha de referência mostra-lhe alguns passos essenciais para o ajudar a utilizar a biblioteca.

  • Fonte: DataCamp

  • Folha de referências: http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3

Conflito de dados

  • Nível: Principiante - Intermediário

  • Área: Manipulação de dados

  • Descrição: Antes de realizar uma análise, é importante limpar o DataFrame e organizar os nossos dados, uma vez que por vezes encontramos registos duplicados, nulos ou inválidos. O processo de limpeza do DataFrame para que possamos usá-lo em nossa análise é conhecido como Limpeza de Dados ou Organização de Dados.

  • Fonte: pandas

  • Folha de referência: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Visualização de dados

A visualização de dados é a representação gráfica dos dados e é particularmente importante para realizar análises ou retratar resultados de análises, o que nos pode ajudar a descobrir tendências, outliers e padrões nos dados.

Matplotlib

  • Nível: Principiante 

  • Área: Visualização de dados

  • Descrição: matplotlib é a primeira biblioteca que foi desenvolvida para traçado de mapas e projecções em Python. Oferece uma enorme variedade de opções para desenhar gráficos e personalizá-los, desde as visualizações mais simples até às mais complicadas.

  • Fonte: DataCamp

  • Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf

Seaborn

  • Nível: Intermediário

  • Área: Visualização de dados

  • Descrição: A biblioteca Seaborn é mais avançada do que a matplotlib e foi desenvolvida para facilitar a análise estatística dos dados diretamente nos gráficos.

  • Fonte: DataCamp

  • Folha de referências: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf

Folium

  • Nível: Intermediário

  • Área: Visualização de dados

  • Descrição: Dentro do campo da visualização, os mapas são uma forma de representação muito útil que nos permite representar o posicionamento geo-espacial e as distâncias. Folium é uma biblioteca que nos permite gerar mapas e representar facilmente os dados de um conjunto de dados, tornando uma representação como uma mapbox ou OpenStreetMap e adicionando camadas de dados visuais como pontos de agrupamento ou um mapa térmico.

  • Fonte: AndrewChallis

Aprendizado de Máquina

Os algoritmos de aprendizagem de máquinas permitem-nos fazer previsões com base nos dados disponíveis. Estes são conhecidos ou como algoritmos de regressão ou de classificação, dependendo do tipo de dados em questão. Estes processos podem ser supervisionados ou não, dependendo de o modelo de aprendizagem da máquina ser ou não treinado utilizando dados etiquetados, o que é conhecido como "verdade em terra".

Scikit-Learn

  • Nível: Avançado

  • Área: Aprendizado de máquina

  • Descrição: Scikit-Learn é uma biblioteca desenvolvida em cima de SciPy e concebida para modelação de dados: agrupamento, manipulação de características, detecção de outlier, seleção e validação de modelos. É conhecido por ser robusto e fácil de integrar com outras bibliotecas Python.

  • Fonte: DataCamp

  • Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf

Aprendizagem Profunda

Dentro do campo da aprendizagem mecânica, existe um campo mais específico conhecido como aprendizagem profunda, que utiliza redes neurais artificiais para fazer previsões.

Keras

  • Nível: Avançado

  • Área: Inclinação profunda

  • Descrição:  A biblioteca Keras está escrita em Python e é capaz de funcionar em cima de CNTK, TensorFlow e Theano, tornando possível gerar e avaliar modelos de redes neurais.

  • Fonte: DataCamp

  • Folha de referência: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf

Tensorflow

  • Nível: Avançado

  • Área: Aprendizagem profunda

  • Descrição: Esta é uma biblioteca de aprendizagem profunda de segunda geração desenvolvida pelo Google. Permite aos utilizadores criar modelos utilizando uma API com uma camada de abstração inferior ou superior, delineando operações matemáticas ou redes neurais, dependendo da preferência do utilizador.

  • Fonte: Altoros

  • Folha de referências: https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png

PyTorch

  • Nível: Avançado

  • Área: Aprendizagem profunda

  • Descrição: A PyTorch é uma biblioteca de aprendizagem profunda desenvolvida pelo Facebook. É uma das bibliotecas mais recentes no mercado e oferece uma interface para trabalhar com tensores a um preço mais acessível do que TensorFlow ou Keras, por exemplo.

  • Fonte: PyTorch

  • Folha de referência: https://pytorch.org/tutorials/beginner/ptcheat.html

Processamento de linguagem natural (PNL)

Dentro do campo da ciência dos dados, a análise linguística é uma área que está a ganhar cada vez mais terreno, com algoritmos que têm sido desenvolvidos para nos ajudar a analisar texto.

NLTK

  • Nível: Principiante - Intermediário

  • Área: PNL

  • Descrição: NLTK é uma das primeiras bibliotecas desenvolvidas para análise de linguagem natural e permite aos utilizadores realizar processos como tokenização, lematização (análise lemma), character ou word count, a fim de ler e compreender o texto em análise.

  • Fonte: Cheatography

  • Folha de referências: https://cheatography.com/murenei/cheat-sheets/natural-language-processing-with-python-and-nltk/

spaCy

  • Nível: Avançado

  • Área: PNL

  • Descrição: spaCy é uma biblioteca de processamento de linguagem natural que analisa textos a níveis diferentes: NER (nome, entidade, reconhecimento), parser (análise sintáctica) ou similaridade, a partir de um modelo treinado numa língua. Permite-nos também criar modelos do zero com os nossos próprios exemplos que reconhecem as entidades que definimos.

  • Fonte: DataCamp

  • Folha de referências: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06

Estas folhas de referências contêm as funções e métodos de trabalho mais úteis de cada biblioteca para o ajudar nas suas tarefas de desenvolvimento do dia-a-dia. Feliz Codificação!

 

Artigos Relacionados

Recomendado para você

Pronto para te juntares a nós?

Mais de 11,000 amantes de tecnologia lançaram as suas carreiras na indústria da tecnologia com os bootcamps da Ironhack. Começa esta nova jornada e faz parte da revolução tecnológica!