Post

Resumo do Curso Kaggle-Pandas

Resumo do conteúdo do minicurso de Pandas dos cursos abertos do Kaggle.

Pandas

Resolva pequenos desafios práticos para aperfeiçoar suas habilidades de manipulação de dados.

Lição 1. Criando, Lendo e Escrevendo

Importando o pandas

1
import pandas as pd

O pandas tem dois objetos principais: DataFrame e Series.

DataFrame

Um DataFrame é uma tabela. Contém uma matriz de entradas individuais, cada uma com um valor específico e correspondendo a uma linha (ou registro) e uma coluna. As entradas de um DataFrame não precisam ser necessariamente números inteiros.

1
pd.DataFrame({'Bob': ['Eu gostei.', 'Foi horrível.'], 'Sue': ['Muito bom.', 'Sem graça.']})

A declaração de um DataFrame é feita no formato de dicionário do Python. As chaves são os nomes das colunas e os valores são listas com os itens a serem inseridos.

Normalmente, ao declarar um DataFrame, os rótulos das colunas recebem seus nomes, mas os rótulos das linhas recebem números inteiros 0, 1, 2… Se necessário, os rótulos das linhas podem ser especificados manualmente. A lista de rótulos das linhas em um DataFrame é chamada de índice e pode ser definida usando o parâmetro index.

1
2
3
pd.DataFrame({'Bob': ['Eu gostei.', 'Foi horrível.'], 
              'Sue': ['Muito bom.', 'Sem graça.']},
             index=['Produto A', 'Produto B'])

Series

Uma Series é uma sequência de valores de dados.

1
pd.Series([1, 2, 3, 4, 5])

Uma Series é essencialmente uma única coluna de um DataFrame. Portanto, também pode ter um índice especificado. A diferença é que, em vez de um ‘nome de coluna’, ela tem um ‘nome’, name.

1
pd.Series([30, 35, 40], index=['Vendas 2015', 'Vendas 2016', 'Vendas 2017'], name='Produto A')

Series e DataFrames estão intimamente relacionados. Pode ser útil pensar em um DataFrame como simplesmente um conjunto de Series.

Lendo arquivos de dados

Em muitos casos, em vez de criar dados diretamente, usamos dados já existentes. Os dados podem ser armazenados em vários formatos, sendo o mais básico o arquivo CSV. O conteúdo de um arquivo CSV geralmente se parece com isto:

1
2
3
4
Produto A,Produto B,Produto C,
30,21,9,
35,34,1,
41,11,11

Ou seja, um arquivo CSV é uma tabela onde cada valor é separado por vírgulas. Por isso o nome “Comma-Separated Values”, CSV.

Para carregar dados no formato CSV em um DataFrame, usamos a função pd.read_csv().

Podemos usar o atributo shape para verificar o tamanho do DataFrame.

O comando head() pode ser usado para visualizar as primeiras cinco linhas do DataFrame.

A função pd.read_csv() tem mais de 30 parâmetros. Por exemplo, se o arquivo CSV que você está tentando carregar já inclui seu próprio índice, você pode especificar o valor do parâmetro index_col para usar essa coluna como índice em vez de deixar o pandas atribuir um índice automaticamente.

Escrevendo dados

O método to_csv() pode ser usado para exportar um DataFrame para um arquivo CSV. É usado da seguinte forma:

1
(nome do DataFrame).to_csv("(caminho do arquivo CSV)")

Lição 2. Indexação, Seleção e Atribuição

Selecionar valores específicos para usar de um DataFrame ou Series do pandas é uma etapa em quase todas as operações que envolvem dados.

This post is licensed under CC BY-NC 4.0 by the author.

Comments powered by Disqus.