创建关系模型并获取系数
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)
# 使用lm()函数进行计算.
relation <- lm(y~x)
print(relation)
执行上面的代码,它产生以下结果
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
-38.4551 0.6746
产生了一条线性方程式:
y = -38.4551 + 0.6746x
使用summary()函数,查看摘要
print(summary(relation))
结果如下:
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-6.3002 -1.6629 0.0412 1.8944 3.9775
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -38.45509 8.04901 -4.778 0.00139 **
x 0.67461 0.05191 12.997 1.16e-06 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.253 on 8 degrees of freedom
Multiple R-squared: 0.9548, Adjusted R-squared: 0.9491
F-statistic: 168.9 on 1 and 8 DF, p-value: 1.164e-06
Multiple R-squared和Adjusted R-squared这两个值,其实我们常称之为“拟合优度”和“修正的拟合优度”,是指回归方程对样本的拟合程度。
R-squared(值范围0-1)描述的 输入变量对输出变量的解释程度。在单变量线性回归中R-squared 越大,说明拟合程度越好,模型对数据的预测越准确。
Adjusted R-square:自由度调整 r 平方。接近1的值表示更好的匹配。当您向模型中添加附加系数时, 它通常是适合质量的最佳指示器。
关于R-squared 和 Adjusted R-squared联系与区别:
,可以看看下文
https://blog.csdn.net/ianly123/article/details/85109792
简单来说,只要增加了更多的变量,无论增加的变量是否和输出变量存在关系,则R-squared 要么保持不变,要么增加。
所以, 需要adjusted R-squared ,它会对那些增加的且不会改善模型效果的变量增加一个惩罚向。
结论,如果单变量线性回归,则使用 R-squared评估,多变量,则使用adjusted R-squared。
在单变量线性回归中,R-squared和adjusted R-squared是一致的。
另外,如果增加更多无意义的变量,则R-squared 和adjusted R-squared之间的差距会越来越大,Adjusted R-squared会下降。但是如果加入的特征值是显著的,则adjusted R-squared也会上升。
使用predict()函数进行数据预测
predict(object, newdata)
object是已使用lm()函数创建的公式。
newdata是包含预测变量的新值的向量。
使用上面得到的方程式来预测
a <- data.frame(x = 170)
result <- predict(relation,a)
print(result)
得到预测结果
76.22869
此博客仅为个人理解和上课笔记梳理,如果发现有误,请各位大佬不吝赐教!一、回归函数通过不同的X(predictor,independent variable, covariate, input, etc.)去估计Y值(the dependent variable, output, response, etc.)回归分析: 一种通过分析两个或多个变量间关系,以达到可以通过其他量的值来预测所需量的值的统计
回归方程的拟合度是评估回归分析结果的重要指标。拟合优度、标准误差和F统计量是用于评估回归方程拟合度的常用指标。在实际应用中,可以通过变量选择、数据转换和模型调整等方法来优化回归分析结果。
线性回归要求因变量与自变量之间存在线性关系,如何来判断呢?实践中我们常采用散点图法,即通过绘制出因变量与自变量的散点图进行观察判断。如果散点趋向于构成一条直线,那么说明因变量和自变量之间存在线性关系,如果构成曲线,就不存在线性关系。图示如下:R绘制散点图先来看案例,这是【医咖会】平台关于线性回归的一个典型案例数据。研究者拟在45-65岁健康男性人群中分析胆固醇浓度与看电视时间的关系。他们猜测可能存...
线性回归: 使用最小二乘法预测定量的结果的一种回归模型。Anscombe数据集它由统计学家弗朗西斯·安斯库姆(Francis Anscombe)建立,用来强调数据可视化和异常值在数据分析中的重要性。这个数据集有4对X变量和Y变量,它们具有相同的统计特性。将其放在统计图中,就会看到一些极大的差异。代码如下:#调用并查看数据
data(anscombe)
attach(anscombe)
anscom...
分析变量之间的关系需要解决下面的问题:1、函数关系:一一对应的确定关系。2、相关关系:一个变量的取值不能由另一个变量唯一确定。当x固定时,y取值对应一个分布。散点图:可以判断两个变量之间有无相关关系,对关系形态做出大致描述。
9.1.3 关系强度的度量
1、相关系数:度量变量之间线性关系强度的一个统计量。常用Pearson相关系数。2、相关系数的性质3、相关系数的检验 第一步,提出假设:H0:p=0;H1:p≠0 第二步,计算检验的统计量 第三步,计算P值,并于显著性水平
setwd("文件绝对位置")#设置工作目录
df<-read.csv("exercise1.csv",header = T)#读取拟合数据文件
library(ggplot2)#导入画图包
ggplot(df,ae
R语言运行代码如下:绿色为要提供的数据,黄色标识信息为需要保存的。
x<-c(0.10,0.11, 0.12, 0.13, 0.14, 0.15,0.16, 0.17, 0.18, 0.20, 0.21, 0.23)
y<-c(42.0,43.5, 45.0, 45.5, 45.0, 47.5,49.0, 53....
R语言语言学与R语言的碰撞Xu & YangPhoneticSan学习参考Discovering Statistics Using RStatistics for Linguistics with RHow to Do Linguistics with RR in ActionAnalyzing Linguistic DataR Graphics Cookbook··· ···R...
--------仅用于个人学习知识整理和sas/R语言/python代码整理--------该文章首发于csdn 正在迁移优化文章中 我的csdn链接:https://blog.csdn.net/baixinzxl/article/details/531297981.定义 则称自变量间存在完全多重共线性2.影响估计值方差变大回归系数置信区间变宽,影响估计精度一些系数无法通过显著性检验回归系数的正负...
应该是实验设计中就明确的事情。研究自变量线性问题,常用方差膨胀因子(Variance Inflation Factor,VIF)这一统计量,VIF是一个比率,分子为使用全部特征拟合模型时该特征的系数的方差,分母为仅使用该特征拟合模型时这个特征的系数的方差。误差是模型的一个总体参数,是模型中的误差项,描述的是因变量被随机因素导致的变化,即真实值和预测值之间存在的差异。实际上,有时只使用某种统计分析方法,或只看统计分析的统计量,而不看使用该统计方法的前提,或不进行数据探索,最后得到的分析结果可能与实际有偏差。
线性相关性分析:
x=c(171,175,159,155,152,158,154,164,168,166,159,164)
y=c(57,64,41,38,35,44,41,51,57,49,47,46)
plot(x,y)
#相关系数计算
cor(x,y)
#建立假设检验:H0:ρ=0,H1:ρ≠0,α=0.05(即原假设为不相关)
#计算相关系数r的t值
cor.test(x,y)
#df:自由度
#p-value<0.05因而x,y有相关性
#95 percent confidence inte