R语言做数据总结?

By 陆勤 at 2019-03-21 • 0人收藏 • 154人看过

R语言做数据总结(Data Summarization)。


一 目标变量分布

代码:

# 加载iris数据
data(iris)
# 目标变量的分布
y <- iris$Species
cbind(freq=table(y), percentage = round(prop.table(table(y))*100,2))

结果:

类别变量分布.png


二 查看变量的数据类型

代码:

# R包
library(mlbench)
#加载数据集
data("BostonHousing") # 波士顿房价数据集
# 查看每个变量的数据类型
sapply(BostonHousing, class)

结果:

变量数据类型.png


三 查看数据集的维度

代码

#R包
library(mlbench)
#加载数据集
data("PimaIndiansDiabetes") # 皮马印第安人糖尿病
#显示数据集的维度
dim(PimaIndiansDiabetes)

结果:

768   9


四 查看原始数据集

代码:

# 加载数据集
data(iris)

# 查看原始数据集
head(iris)
tail(iris)

结果:

检视数据集.png


五 计算变量之间的皮尔逊相关系数

代码

# R包
library(mlbench)
#加载数据集
data("PimaIndiansDiabetes")
# 计算数值类型的两两变量间的皮尔逊相关系数,生成相关系数矩阵
correlations <- cor(PimaIndiansDiabetes[,1:8])
# 输出相关系数矩阵的结果
print(correlations)

结果:

皮尔逊相关系数.png


六 计算变量的均值和标准差

代码:

#R包
library(mlbench)
#加载数据集
data("PimaIndiansDiabetes")
#计算数值类型变量的均值
sapply(PimaIndiansDiabetes[,1:8], mean)
#计算数值类型变量的标准差
sapply(PimaIndiansDiabetes[,1:8], sd)

结果:

均值和方差.png


七 计算变量的偏度和峰度

代码:

#R包
library(e1071)
#加载数据集
data(iris)
# 计算数值变量的偏度值
apply(iris[,1:4], 2, skewness)
# 计算数值变量的峰度值
apply(iris[,1:4], 2, kurtosis)

结果:

偏度和峰度.png


八 数据集的摘要分析

代码:

# 加载数据集
data(iris)

# 数据集摘要分析
summary(iris)

结果:

数据集摘要.png

登录后方可回帖

信息栏
数据人网是数据人学习、交流和分享的平台,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值
Loading...