“数理统计”的版本间差异

来自Shiyin's note
跳到导航 跳到搜索
第3行: 第3行:


===中位值和平均值===
===中位值和平均值===
参考[http://www.math.uah.edu/stat/sample/Variance.html]
*中位值对应的误差mean absolute error function
*中位值对应的误差mean absolute error function
<math>mae(a) = \frac{1}{n - 1} \sum_{i=1}^n |x_i - a|, \quad a \in \R</math>
<math>mae(a) = \frac{1}{n - 1} \sum_{i=1}^n |x_i - a|, \quad a \in \R</math>
第9行: 第8行:
*平均值对应的误差是 mean square error function
*平均值对应的误差是 mean square error function
<math>mse(a) = \frac{1}{n - 1} \sum_{i=1}^n (x_i - a)^2, \quad a \in \R </math>
<math>mse(a) = \frac{1}{n - 1} \sum_{i=1}^n (x_i - a)^2, \quad a \in \R </math>
:参考[http://www.math.uah.edu/stat/sample/Variance.html]
:中位值的误差 1.253*sigma/sqrt(N),比平均值误差大 (假设高斯分布)


*中位值的误差 1.253*sigma/sqrt(N),比平均值误差大 (假设高斯分布)
===方差,标准偏差,误差===
===方差,标准偏差,误差===
*样本方差(sample variance)
*样本方差(sample variance)
第16行: 第16行:
s^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_i - m)^2
s^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_i - m)^2
</math>
</math>
:证明参考:[http://www.math.uah.edu/stat/sample/Variance.html]


证明参考:[http://www.math.uah.edu/stat/sample/Variance.html]
*样本方差的分布可以用Chi-square分布近似
*样本方差的分布可以用Chi-square分布近似
<math>\dfrac{(n-1)S^2}{\sigma^2}=\dfrac{\sum_{i=1}^n (X_i-\bar{X})^2}{\sigma^2}\sim \chi^2(n-1)</math>
<math>\dfrac{(n-1)S^2}{\sigma^2}=\dfrac{\sum_{i=1}^n (X_i-\bar{X})^2}{\sigma^2}\sim \chi^2(n-1)</math>
:证明参考[https://onlinecourses.science.psu.edu/stat414/node/174]

证明参考[https://onlinecourses.science.psu.edu/stat414/node/174]
:严格形式[http://mathworld.wolfram.com/SampleVarianceDistribution.html]
:严格形式[http://mathworld.wolfram.com/SampleVarianceDistribution.html]


----




*标准偏差的误差,0.71**sigma/sqrt(N) (假设高斯分布)
*标准偏差的误差,0.71**sigma/sqrt(N) (假设高斯分布)


===例子===
===例子===
;两组数据混合之后的均值和弥散
*两组数据混合之后的均值和弥散
:数组 A (i=1,N1), 其均值为 M1,弥散为 S1,数组 B(i=1,N2),其均值为M2,弥散为S2,现将A,B混合组成数组C,求其均值M3和弥散S3

M3=(N1*M1+N2*M2)/(N1+N2)
数组 A (i=1,N1), 其均值为 M1,弥散为 S1
(N1+N2)*S3^2=N1*S1^2+N2*S2^2+(N1^2+N2^2)/(N1+N2)^2*(M1-M2)^2
数组 B(i=1,N2),其均值为M2,弥散为S2

现将A,B混合组成数组C,求其均值M3和弥散S3

M3=(N1*M1+N2*M2)/(N1+N2)

(N1+N2)*S3^2=N1*S1^2+N2*S2^2+(N1^2+N2^2)/(N1+N2)^2*(M1-M2)^2


==极值统计==
==极值统计==

2014年10月11日 (六) 04:36的版本

基础知识

中位值和平均值

  • 中位值对应的误差mean absolute error function

  • 平均值对应的误差是 mean square error function

参考[1]
中位值的误差 1.253*sigma/sqrt(N),比平均值误差大 (假设高斯分布)

方差,标准偏差,误差

  • 样本方差(sample variance)

证明参考:[2]
  • 样本方差的分布可以用Chi-square分布近似

证明参考[3]
严格形式[4]
  • 标准偏差的误差,0.71**sigma/sqrt(N) (假设高斯分布)

例子

  • 两组数据混合之后的均值和弥散
数组 A (i=1,N1), 其均值为 M1,弥散为 S1,数组 B(i=1,N2),其均值为M2,弥散为S2,现将A,B混合组成数组C,求其均值M3和弥散S3
M3=(N1*M1+N2*M2)/(N1+N2)
(N1+N2)*S3^2=N1*S1^2+N2*S2^2+(N1^2+N2^2)/(N1+N2)^2*(M1-M2)^2

极值统计

极值统计在天文中有较多应用:如观测到的高红移星系团,大的void的是否符合halo mass function的预言? BCG的光度是否符合光度函数的极值分布?

  • arxiv:1108.1358 给出了halo mass function的极值分布函数的近似,表明要用极值来区分非高斯性是有困难的。
  • arxiv:1108.5458 : 在拿观测和理论模型进行比较的时候,可以在两个极端之间 ,1观测样本是极限情况(least probable),2,随机情况。
  • 在讨论观测样本的可能数目(比如一定体积限内大于多少质量的星系团的个数)之外,还可以进一步比较观测量(比如)的分布情况。
  • 极值统计的两种近似(arXiv: 1201.3526)
  • GEV (general extreme value): Gnedenko approach 比如一个空间内最大质量星系团不超过某个极值的概率
  • The Pareto approach 这是一个条件概率,比如是在大于某个极限的星系团中,超过这个极限某个数值的概率。
  • 这两个概率在极限情况下,就是比如星系团的极值都设得特别大的情况下都是1. 但是在非极限情况下不一致,条件概率比GEV更小一点。