快速而有效做数据分析?

By 陆勤 at 2019-05-09 • 0人收藏 • 93人看过

数据分析是询问数据问题和解答数据问题。


利用Python的pandas快速而有效地做数据分析


一 数据总况


1 加载数据集

import pandas as pd
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
# 数据加载
data = pd.read_csv('pima-indians-diabetes.csv', names=names)
print(data.shape)
print(data.columns)
print(data.dtypes)

结果

image.png


2 数据检视

# 数据检视
print(data.head(10))

结果

image.png

3 数据描述性分析

# 数据描述性统计分析
print(data.describe().T)

结果

image.png


二 数据可视化分析


1 单变量的盒箱图

import pandas as pd
import matplotlib.pyplot as plt
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
# 数据加载
data = pd.read_csv('pima-indians-diabetes.csv', names=names)
# 单变量的可视化分析
data.boxplot()
plt.show()

结果

image.png

2 单变量的直方图

data.hist()
plt.show()

结果

image.png


3  特征集-目标变量的关系图

data.groupby('class').hist()
plt.show()

结果

Class=0

image.png

Class=1

image.png

4 一个变量和目标变量的关系图

data.groupby('class').plas.hist(alpha=0.4)
plt.show()

结果

image.png

5 特征集与特征集之间的关系图

from pandas.plotting import scatter_matrix
scatter_matrix(data, alpha=0.2, figsize=(6, 6), diagonal='kde')
plt.show()

结果

image.png

登录后方可回帖

信息栏
数据人网是数据人学习、交流和分享的平台,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值
Loading...