大数据时代的“小数据”系列1 cox-stuart趋势检验

标签: 大数据  非参数  scala  R语言

为什么要用趋势检验

在客观世界存在各种各样随时间变动的数据,很多时候我们都想要知道数据变化随时间的发展趋势如何,常用的方式是我们使用回归的参数方法拟合出一条直线,然后判断其趋势。这样的方法往往受多方面的因素影响,比如单调的趋势不一定是线性的,也不一定能有一个显函数来表达。其次参数检验的方法受限于数据量,有时候我们得到的数据很少,不适合做回归等参数方法。比如当我们开发的APP上线新功能,我们需要在短时间内判断其是否带来用户的增长,流量的增长,以便做出相应的策略;或者当出现某种疫情的时候,我们迫切希望了解到疫情是否得到控制等…… Cox和Stuart提出的基于符号检验的非参数方法就能有效的解决之一问题

举个例子说明
以下是天津机场从1995年1月到2003年12月的108个月旅客吞吐量数据
天津机场从1995年1月到2003年12月的108个月旅客吞吐量

天津机场从1995年1月到2003年12月的108个月旅客吞吐量

光从数字和趋势图看,我们能否说这个趋势是增长还是减少,还是都不明显呢,似乎是增长,但是又不总是增长。

对此我们可以做如下处理

step1 做出假设
这里写图片描述

step2 取数据对
(X1,X1+c)… (X(n-c),Xn)
这里 当n为偶数 c=n/2 ; 当n为奇数 c= (n+1)/2

step3 计算符号
计算 Dt = Xt -X(t+c)
计算 S+ (Dt为正)和 S-(Dt为负) 的个数
显然,当无趋势时 S+ 或S- 服从p=0.5 的二项分布,如果S+大,则可能存在下降趋势。
所以有该检验的统计量如下:
检验统计量

Scala 版本

import breeze.stats.distributions._
import scala.collection.mutable.ListBuffer

 /**
    *  计算二项分布的分布函数
    * @param binomial
    * @param n
    * @return
    */
  def pbinom(binomial: Binomial, n: Int) = {
    var p = 0.0
    if (n >= binomial.n) {
      p = 1
    } else {
      for (i <- 0 to n) {
        p += binomial.probabilityOf(i)
      }
    }
    p
  }

/**
    * CoxStuart趋势检验
    * @param timeSeries
    * @param AlternativeHypothesis
    * @return
    */
  def CoxStuart(timeSeries: Seq[Double],
               AlternativeHypothesis: String = hypothesis.GROWTHREND) = {

    val length = timeSeries.length

    val ts = if (length % 2 != 0) {
      timeSeries.drop(length / 2 + 1)
    } else timeSeries

    val pre = ts.slice(0, ts.length / 2)
    val pro = ts.slice(ts.length / 2, ts.length)
    val sign = new ListBuffer[Double]()
    for (i <- 0 until length / 2   ) {
      sign.append(pre(i) - pro(i))
    }
    val spositive = sign.count(_ > 0)
    val snagtive = sign.count(_ < 0)

    def min(n: Int, g: Int) = {
      if (n > g) g else n
    }

    val binomial = Binomial((length / 2), 0.5)

    val p = AlternativeHypothesis.toUpperCase match {
      case "REDUCETREND" => pbinom(binomial, snagtive)
      case "NOTREND" => pbinom(binomial, min(snagtive, spositive)) * 2
      case _ => pbinom(binomial, spositive)
    }
    coxstuer((ts.length / 2), spositive, snagtive, p)
  }
    val source: BufferedSource = Source.fromFile("TJAir.csv")
    val data = source.getLines().map(_.toDouble)
    val coxstuer1 = CoxSturt(data.toSeq)
    println("p-value =" + coxstuer1.pvalue)

Scala 算法得出 p-value = 0.004536670169793693


R 语言版本

#数据加载
TJair <- read_csv("TJAir.csv")
#绘制趋势图
plot(TJair$TJair,type = "l")
# cox_stuert 趋势检验
#  假设检验
#h0:无趋势 ,h1:上升趋势
len <- length(TJair$TJair)  

clen <-if(len%%2 == 0){
  len/2
} else{
  (len+1)/2
}

pvcont <- TJair$TJair
D <- pvcont[1:clen] - pvcont[(clen+1):len]
## 符号计算
spositive <- sum(sign(D) == 1)
snegative <- sum(sign(D) == -1)
## 结果检验
pbinom(spositive,clen,0.5)
pbinom(spositive,54,0.5)


[1] 0.00453667

R语言 计算结果 p-value = 0.00453667

参考资料:《非参数统计》第四版 吴喜之 赵博娟

原文链接:加载失败,请重新获取