查看原文
其他

干货丨多项式回归之操作篇

TIE 萜心话 2022-09-14

啦啦啦啦啦,在一次又一次提笔失败后,萜妹终于鼓起勇气来填我欠下的各种坑了,先从最近的开始补,所以今天先手把手教小可爱们多项式回归的操作啦~


以下的操作以论文写作的顺序来进行


话不多说,我们直接开始。


(注:原理篇在很久前的一篇推送里,大家有兴趣可以去菜单里查看。)


Step

1

分析策略

分析策略这个部分是通常论文写作中不会单独列出的部分,但是在多项式回归与响应面分析中,这块内容会在研究方法的最后部分被提及。


接下来,萜妹介绍一下分析策略这部分的写作范式。因为是根据萜妹自己看文章总结出来的,所以个人认为是可以这么写,而不是说一定要这么写哈。

模型构建

首先要用多项式回归的方法构建构建模型,写明公式及公式内各项内容的代表意义。


需要注意的是,有的时候数据具有嵌套性,所以会使用多层线性模型(HLM)进行假设检验,这种情况下公式要变形成两层。


萜妹这里就只列举最最传统的公式给大家参考,各种变式也是在这个基础上得来的。

其中L、T是需要进行一致性检验的变量,M是多项式回归的目标变量,这三个字母不固定,可依研究的具体内容而设定。

假设说明

这个部分的写作目的是为了说明如果要满足预先的假设,数据应该呈现出一个怎样的结果。这个部分要对照假设一条条写,而之后的结果部分也会对照这里提出的条件来挨个验证是否都满足。


接下来萜妹会对几个常用的例子进行具体说明,希望可以帮助小可爱们理解条件存在的意义。


H1:L与T一致性越高,M取值越大。

若要假设成立,需要曲率显著以保证拐点的存在,而不是呈线性关系;而曲率为负说明拐点值取到最大值,如果假设一致性高,M取值越小的话,此时曲率为正才能符合假设。此外,对于凹曲面而言,第一主轴为向下曲率最小的直线,即是凹曲面的脊投射与LT平面的直线,因此如果要满足假设,第一主轴与与一致性线不能产生偏移。


因此,假设成立需要满足的条件:

①不一致性线(L=-T)上 ,曲率为负且显著;

②第一主轴没有偏离一致性线(L=T),即斜率 p 11=1、截距p10=0。


H2:在一致性情况下,与双低相比,双高对M的影响更大。

若要满足假设,需要一致性线呈简单线性关系,因此曲率不能显著;此外斜率为正说明双高比双低的正向效果显著;若假设相反,则需斜率为负。


因此,假设成立需要满足的条件:

①一致性线(L=T)上 ,斜率为正且显著;

②一致性线(L=T)上 ,曲率不显著。


H3:在不一致性情况下,与“低T高L”相比,“高T低L”时M取值下降的更快。

在不一致性线上,M的下降速率取决于各点的斜率(注:这和我们上文之前提到的斜率不一样哈),所以为了求得斜率表达式,我们要对不一致性线求导,结果为斜率=a3+2a4X,所以斜率为0时,拐点的横坐标=-a3/2a4,。若要满足我们的假设,拐点应该小于0,这样在正半轴下降速率会高于负半轴;若假设相反,则拐点横坐标需大于0.


因此,假设成立需要满足的条件:侧偏移量-a3/2a4取值为负


H4:中介与调节作用

有关中介与调节的检验与传统方法大致相同,区别的是需要先构建一个块变量代表T与L的一致性效应。具体构造方法就将已算出的b0-b5代入最开始的公式就好啦。


Step

2

实际操作

就萜妹个人而言哇,我是觉得多项式回归难就难在理解上,其实操作上还是比较简单的,所以在下面的过程中,萜妹以前介绍过的操作就不附图说明啦,更多的可能是告诉小可爱们,我的一些经验和要注意的地方。

计算b0-b5

其实计算b0-b5是一个非常简单的过程。我们只需要在SPSS里做一个简单的回归就好。


具体操作:

①自变量标准化或者中心化;

②在SPSS的计算变量中完成自变量的平方项和交互项的生成过程;

③在SPSS中进行回归分析。目标变量是我们的结果变量,而对其有影响的变量包括控制变量、自变量、自变量的平方项和之间交互项。


此外,多项式回归的数据处理第一个需要注意的点是,一般我们做数据分析时用的都是标准化的分数,但是多项式回归这里,因为T、L二者的量表拥有的是相同的度量标准,因此我们对自变量只进行中心化也可以。当然,要还是想用标准化当然可以用标准化的了。


第二个需要注意的地方是:在进行回归时,结果变量不要选择标准化的数据,因为这样会使截距消失,通常情况下多项式回归的响应面分析图都是有截距的。至于控制变量进不进行标准化,这个就看个人选择了,个人觉得影响不大。

计算a1-a4

根据回归得到的b0-b5可以根据公式很轻易的算出a1-a4,之后可以根据EXCEL算出它们的显著性。


具体操作:

①根据Shanock(2010)文章里的协方差计算语句在SPSS里计算出自变量及其平方项和交互项的协方差;

②在polynomial regression tool的EXCEL文件里,根据SPSS求得的数据把下图中白色部分填充完整。

③之后EXCEL中下图部分就会自动计算完成,可判断a1-a4的显著性。


需要注意的是第二步里头,非标准化系数后一列是标准误哈,萜妹有次输成了标准化系数(因为SPSS结果里头,标准化系数那一列正好第一行是空的),结果愣生生试了半个多小时怎么算都算不出显著,恩,可以说是自己把自己蠢哭了。

计算X0、Y0、P10、P11、P20、P21

这一步也是完全依靠EXCEL的傻瓜操作呀。不过这里的指标不是都需要看,主要是p10和p11。而且这两个指标的显著性,萜妹还不会直接计算,不过好险找到篇文章里有P11=1的95%置信区间为[-3.73,6.05];P10=0的95%置信区间为[-0.09,2.32]。所以小可爱们只要把计算出来的值和上述区间作比较就可以啦。在区间范围内就是不显著,没有偏移。


具体操作:

①在surface的EXCEL文件里输入b0-b5;

②EXCEL会自动计算出右图部分。

制表

计算完上面所有内容后,就可以制表撰写H1-3的证明部分了。证明部分这个就结合之前的分析策略写就好,表格的话,萜妹找了个范例,不过小可爱们也可以根据假设自己调整要汇报的内容哇~

计算块变量

如果涉及到中介和调节变量的话,我们需要利用SPSS构建块变量再进行分析,块变量的构建方法也很简单粗暴。就直接在SPSS的计算变量里按照公式输入就好,要记得数字和变量的乘积需要在二者间输入*哟,不然SPSS会判定错误的~


生成块变量后,大家就按正常的分析就好,需要注意的是这个时候的计算就全部用标准化系数了哈~


啦啦啦,文章写到这里就差不多结束啦,和通常论文写作一样的步骤,萜妹这里就都跳过了,毕竟我们的重点是多项式回归嘛。


之后,还想说的是,萜妹我是写到一半才想起来,我好像还没有介绍过拐点、主轴、一致性/不一致性线的,啊,当下是非常崩溃的,但是那个介绍部分再加到这一篇里,内容肯定超了,嘤嘤嘤。


所以我还是先把这篇写出来了,大家要是对那些特点弄不清楚的,萜妹看反馈,到时候再补一篇说明好了。(其实我是觉得会点开这篇看的小可爱大概是了解这个方面的吧,所以那些最基础的概念应该也不用我说了,恩,不知为何的莫名乐观。)


最后就是文中提到的EXCEL文件和文献,萜妹会在最后分享出来,小可爱们有需要的自取哇~


最后的最后,感谢小可爱们在萜妹偷懒时期的包容,勤奋萜会再次上线,努力周更回报小可爱们的哈~


小可爱们,下周见~


推送中出现的相关文件,

回复“多项式回归”即可获得。


【萜心话】

保研咸鱼丨健身少女丨电竞迷妹

交流平台丨回忆手册丨神秘树洞

晚上好~

✬如果你喜欢这篇文章,欢迎分享到朋友圈✬

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存