每日一题【20200803】
两变量间的相关系数
例
某地区1982~1996年国民生产总值与工商税收收入的数据如下:
计算两变量的相关系数
K-S test正态检验
1 |
|
1 |
|
返回值均为0,说明接受假设,两个序列均为正态序列。
但是分析该数据不是连续型数据,所以不能用Pearson检验,所以采用Spearman检验和Kendall检验。
统计学中,连续数据,离散数据又称连续变量,离散变量。区分两种变量的方法为观察变量是否连续可分。连续变量,指在一定区间内可以任意取值,相邻的两个数值可作无限分割(即可取无限个值)。比如题主所说的身高,身高可以是183,也可以是183.1,也可以是183.111……1。离散变量,是指其数值只能用自然数、整数、计数单位等描述的数据。例如,职工个数(总不能是1.2个吧),成绩A+等。
要区分每月核心行为 1 次、 2次、3次,对于大多数产品意义不是很大。倒不如将连续数据转换为离散,比如 5 次以下归为一类,5 次以上归为另一类。更好的做法用「二八」划分,比如以累计贡献度达 80 % 的用户核心操作数值作为界线划分「高低」用户。即使 1、2、3次意义重大,那转为离散会更合适,每个数值能区分出不同意义。
通过阅读相关文献,我发现可能是我理解错了qwq,也许这是连续性的数据!!!
- 读取数据
- 调用函数进行检验
该数据不存在第三因素,所以我们不进行偏相关系数(qwq打脸)
1 |
|
1 |
|
参考
每日一题【20200803】
https://blog.baixf.tk/2020/08/03/每日一题/每日一题【20200803】/