“数理统计”的版本间差异
(→基础知识) |
(→基础知识) |
||
第1行: | 第1行: | ||
==基础知识== |
==基础知识== |
||
;贝叶斯和频率论解释的差异: [http://en.wikipedia.org/wiki/Lindley%27s_paradox Lindley's paradox ] |
;贝叶斯和频率论解释的差异: [http://en.wikipedia.org/wiki/Lindley%27s_paradox Lindley's paradox ] |
||
<math>E=mc^2</math> |
|||
===中位值和平均值=== |
===中位值和平均值=== |
||
第9行: | 第6行: | ||
*中位值对应的误差mean absolute error function |
*中位值对应的误差mean absolute error function |
||
mse(a)=1n−1∑i=1n(xi−a)2,a∈R |
|||
*平均值对应的误差是 mean square error function |
*平均值对应的误差是 mean square error function |
||
mae(a)=1n−1∑i=1n|xi−a|,a∈R |
mae(a)=1n−1∑i=1n|xi−a|,a∈R |
||
第17行: | 第14行: | ||
===方差,标准偏差,误差=== |
===方差,标准偏差,误差=== |
||
*样本方差(sample variance) |
*样本方差(sample variance) |
||
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>n</mi> <mo>−<!-- − --></mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>∑<!-- ∑ --></mo> <mrow class="MJX-TeXAtom-ORD"> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo stretchy="false">(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>−<!-- − --></mo> <mi>m</mi> <msup> <mo stretchy="false">)</mo> <mn>2</mn> </msup></math> |
|||
s2=1n−1∑i=1n(xi−m)2s2=1n−1∑i=1nx2i−nn−1m2s2(x)=nn−1[m(x2)−m2(x)]s2=12n(n−1)∑i=1n∑j=1n(xi−xj)2 |
|||
证明参考:http://www.math.uah.edu/stat/sample/Variance.html |
证明参考:http://www.math.uah.edu/stat/sample/Variance.html |
||
*样本方差的分布可以用Chi-square分布近似 |
*样本方差的分布可以用Chi-square分布近似 |
2014年10月11日 (六) 04:25的版本
基础知识
- 贝叶斯和频率论解释的差异
- Lindley's paradox
中位值和平均值
参看http://www.math.uah.edu/stat/sample/Variance.html
- 中位值对应的误差mean absolute error function
- 平均值对应的误差是 mean square error function
mae(a)=1n−1∑i=1n|xi−a|,a∈R
- 中位值的误差 1.253*sigma/sqrt(N),比平均值误差大 (假设高斯分布)
方差,标准偏差,误差
- 样本方差(sample variance)
解析失败 (语法错误): {\displaystyle <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>n</mi> <mo>−<!-- − --></mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>∑<!-- ∑ --></mo> <mrow class="MJX-TeXAtom-ORD"> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo stretchy="false">(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>−<!-- − --></mo> <mi>m</mi> <msup> <mo stretchy="false">)</mo> <mn>2</mn> </msup>}
证明参考:http://www.math.uah.edu/stat/sample/Variance.html
- 样本方差的分布可以用Chi-square分布近似
(n−1)S2σ2=∑ni=1(Xi−X¯)2σ2∼χ2(n−1) 证明参考https://onlinecourses.science.psu.edu/stat414/node/174
- 严格形式http://mathworld.wolfram.com/SampleVarianceDistribution.html
- 标准偏差的误差,0.71**sigma/sqrt(N) (假设高斯分布)
例子
- 两组数据混合之后的均值和弥散
数组 A (i=1,N1), 其均值为 M1,弥散为 S1 数组 B(i=1,N2),其均值为M2,弥散为S2
现将A,B混合组成数组C,求其均值M3和弥散S3
M3=(N1*M1+N2*M2)/(N1+N2)
(N1+N2)*S3^2=N1*S1^2+N2*S2^2+(N1^2+N2^2)/(N1+N2)^2*(M1-M2)^2
极值统计
极值统计在天文中有较多应用:如观测到的高红移星系团,大的void的是否符合halo mass function的预言? BCG的光度是否符合光度函数的极值分布?
- arxiv:1108.1358 给出了halo mass function的极值分布函数的近似,表明要用极值来区分非高斯性是有困难的。
- arxiv:1108.5458 : 在拿观测和理论模型进行比较的时候,可以在两个极端之间 ,1观测样本是极限情况(least probable),2,随机情况。
- 在讨论观测样本的可能数目(比如一定体积限内大于多少质量的星系团的个数)之外,还可以进一步比较观测量(比如)的分布情况。
- 极值统计的两种近似(arXiv: 1201.3526)
- GEV (general extreme value): Gnedenko approach 比如一个空间内最大质量星系团不超过某个极值的概率
- The Pareto approach 这是一个条件概率,比如是在大于某个极限的星系团中,超过这个极限某个数值的概率。
- 这两个概率在极限情况下,就是比如星系团的极值都设得特别大的情况下都是1. 但是在非极限情况下不一致,条件概率比GEV更小一点。