描述性统计理解数据?

By 陆勤 at 11 天前 • 0人收藏 • 200人看过

利用描述性统计帮助你理解数据。利用Python语言做描述性统计分析。


一 数据查看

import pandas as pd
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=names)
peek = data.head(20)
print(peek)

结果


image.png


二 数据的维度以及数据的样本数和变量数

import pandas as pd
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=names)
shape = data.shape
print(shape)


结果

(768, 9)

数据集是一个二维数据集,有768个样本,9个变量,行表示样本,列表式变量


三 变量集的类型

import pandas as pd
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=names)
types = data.dtypes
print(types)

结果

image.png


四 描述性统计


import pandas as pd
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=names)
pd.set_option('display.width', 100)
pd.set_option('precision', 3)
description = data.describe().T
print(description)


结果


image.png


五 目标变量分布

import pandas as pd
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=names)
class_counts = data.groupby('class').size()
print(class_counts)


结果


image.png


六 变量集之间的相关性分析

import pandas as pd
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=names)
pd.set_option('display.width', 100)
pd.set_option('precision', 3)
correlations = data.corr(method='pearson')
print(correlations)


结果


image.png


总结:

从数据的检视,数据的维度,数据的统计描述,数据的相关性等角度做数据认知与理解。

登录后方可回帖

信息栏
数据人网是数据人学习、交流和分享的平台,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值
Loading...