数据宠物

V1

2022/05/07阅读:15主题:橙心

P001-pandas-数据结构及查看数据属性

pandas数据结构

  • Series

类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。

  • DataFrame

是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

查看数据

head()方法用于读取前面的 n 行,如果不填参数 n ,默认返回 5 行。

import pandas as pd
df = pd.read_excel('./data/P0101-数据结构-实例数据0101.xlsx')

print(df.head())  # 查看前几行数据

输出结果:

   PassengerID  Survived  Pclass  ...    Fare Cabin  Embarked
0            1         1       1  ...  100.59   NaN         S
1            2         0       2  ...   58.84  C434         Q
2            3         0       2  ...   36.55  C147         Q
3            4         0       2  ...   66.64   NaN         S
4            5         1       3  ...   60.47   NaN         S

[5 rows x 12 columns]

tail()方法用于读取尾部的 n 行,如果不填参数 n ,默认返回 5 行,空行各个字段的值返回 NaN。

print(df.tail())  # 查看后几行数据

输出结果:

     PassengerID  Survived  Pclass  ...   Fare Cabin  Embarked
886          887         0       2  ...  25.46   NaN         S
887          888         0       3  ...  64.18   NaN         C
888          889         0       2  ...  30.34   NaN         Q
889          890         1       2  ...  92.18  C434         Q
890          891         1       3  ...  84.65   NaN         C

[5 rows x 12 columns]

查看DataFrame的属性

  • df.shape,查看数据的形状,返回(行数,列数)
print(df.shape)

输出结果:

(89112)
  • df.columns,查看列名列表
print(df.columns)

输出结果:

Index(['PassengerID''Survived''Pclass''Name''Sex''Age''SibSp',
       'Parch''Ticket''Fare''Cabin''Embarked'],
      dtype='object')
  • df.index,查看索引列
print(df.index)

输出结果:

RangeIndex(start=0, stop=891, step=1)
  • df.dtypes,查看每列的数据类型
print(df.dtypes)

输出结果:

PassengerID      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

以上关于DtaFrame的属性可以通过info()方法统一获取

print(df.info())

输出结果:

<class 'pandas.core.frame.DataFrame'>
RangeIndex:
 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerID  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

小结

  • Series,DataFrame是Pandas数据结构
  • 两个省略读取数据的方法:head(),读取数据的前几行,默认5行;tail(),读取数据的后几行,默认5行
  • 通过info()方法可以获取数据的相关属性:数据有多少行和列(df.shape)、查看列名列表(df.columns)、查看索引列(df.index)、查看每列的数据类型(df.dtypes)

毕竟不是科班出身,有什么不足和不对的地方,各位观众老爷还请多多海涵,多多指正,也欢迎加我好友,一起交流。

分类:

数学

标签:

Python

作者介绍

数据宠物
V1