“数理统计”的版本间差异

2025年2月13日 (四) 02:59的最新版本

基础知识

贝叶斯和频率论解释的差异: Lindley's paradox

Moment-generating function

定义

M_{X}(t):=\mathbb {E} \!\left[e^{tX}\right],\quad t\in \mathbb {R} ,

特性：该函数可以找到 all the moments of the distribution.

e^{t\,X}=1+t\,X+{\frac {t^{2}\,X^{2}}{2!}}+{\frac {t^{3}\,X^{3}}{3!}}+\cdots +{\frac {t^{n}\,X^{n}}{n!}}+\cdots .

即有:

{\begin{aligned}M_{X}(t)=\mathbb {E} (e^{t\,X})&=1+t\,\mathbb {E} (X)+{\frac {t^{2}\,\mathbb {E} (X^{2})}{2!}}+{\frac {t^{3}\,\mathbb {E} (X^{3})}{3!}}+\cdots +{\frac {t^{n}\,\mathbb {E} (X^{n})}{n!}}+\cdots \\&=1+tm_{1}+{\frac {t^{2}m_{2}}{2!}}+{\frac {t^{3}m_{3}}{3!}}+\cdots +{\frac {t^{n}m_{n}}{n!}}+\cdots ,\end{aligned}}

The Pearson diagram

中位值,平均值.最可几值（median,mean,mode)

中位值对应的误差mean absolute error function

$mae(a)={\frac {1}{n-1}}\sum _{i=1}^{n}|x_{i}-a|,\quad a\in \mathbb {R}$

中位值的误差 π4n/(2n+1)*σ/sqrt(N),比平均值误差大 (假设高斯分布）

平均值对应的误差是 mean square error function

$mse(a)={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-a)^{2},\quad a\in \mathbb {R}$

参考[1]

对称分布mean=median=mode
mean-mode=3(mean-median)

方差，标准偏差，误差

样本方差（sample variance）

$s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-m)^{2}$

证明参考：[2]

样本方差的分布

${\dfrac {(n-1)S^{2}}{\sigma ^{2}}}={\dfrac {\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}}{\sigma ^{2}}}\sim \chi ^{2}(n-1)$

证明参考[3] [4]

chi-square(n)分布的variance是2n，因此样本方差的误差为

\sigma ^{2}{\sqrt {\frac {2}{n-1}}}

标准偏差（standard deviation）

$S={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-m)^{2}}}$

其无偏估计比较复杂，其误差近似为

\sigma /{\sqrt {2(n-1)}}

具体可参考

例子

两组数据混合之后的均值和弥散

数组 A (i=1,N1), 其均值为 M1，弥散为 S1,数组 B(i=1,N2),其均值为M2,弥散为S2,现将A，B混合组成数组C，求其均值M3和弥散S3

M3=(N1*M1+N2*M2)/(N1+N2)
(N1+N2)*S3^2=N1*S1^2+N2*S2^2+(N1^2+N2^2)/(N1+N2)^2*(M1-M2)^2

两个不等式

马尔科夫不等式：在知道样本期望和方差的情况下，对随机变量取值的概率约束
切比雪夫不等式：在只有样本数学期望的情况下，对随机变量的估值约束

分布函数

Dirichlet distribution

被用来构建非参数的SFH，[arXiv.1901.02877]

多维的[beta分布 | https://en.wikipedia.org/wiki/Beta_distribution]，

极值统计

极值统计在天文中有较多应用：如观测到的高红移星系团，大的void的是否符合halo mass function的预言？ BCG的光度是否符合光度函数的极值分布？

arxiv:1108.1358 给出了halo mass function的极值分布函数的近似，表明要用极值来区分非高斯性是有困难的。
arxiv:1108.5458 ：在拿观测和理论模型进行比较的时候，可以在两个极端之间，1观测样本是极限情况（least probable），2，随机情况。
在讨论观测样本的可能数目（比如一定体积限内大于多少质量的星系团的个数）之外，还可以进一步比较观测量（比如）的分布情况。

极值统计的两种近似(arXiv: 1201.3526)

GEV (general extreme value): Gnedenko approach 比如一个空间内最大质量星系团不超过某个极值的概率
The Pareto approach 这是一个条件概率，比如是在大于某个极限的星系团中，超过这个极限某个数值的概率。
这两个概率在极限情况下，就是比如星系团的极值都设得特别大的情况下都是1. 但是在非极限情况下不一致，条件概率比GEV更小一点。

Bayesian approach

Hierarchical Bayesian Meta-Analysis [5] [6]

一种混合模型，可以结合不同的观测数据，这些数据甚至是不自洽的，有缺陷的。

专题

copula
survival analysis [7]
genus statistics: 分析拓补结构参见[8]方程29，可以在ISM的image种应用，e.g. arXiv:2212.11177

@@ 第1行： / 第1行： @@
+==基础知识==
+*贝叶斯和频率论解释的差异: [http://en.wikipedia.org/wiki/Lindley%27s_paradox Lindley's paradox  ]
+===Moment-generating function===
+*定义
+:<math> M_X(t) := \mathbb{E}\!\left[e^{tX}\right], \quad t \in \mathbb{R}, </math>
+*特性：该函数可以找到 all the moments of the distribution.
+: <math>
+e^{t\,X} = 1 + t\,X + \frac{t^2\,X^2}{2!} + \frac{t^3\,X^3}{3!} + \cdots +\frac{t^n\,X^n}{n!} + \cdots.
+</math>
+即有:
+: <math>
+\begin{align}
+M_X(t) = \mathbb{E}(e^{t\,X}) &= 1 + t \,\mathbb{E}(X) + \frac{t^2 \,\mathbb{E}(X^2)}{2!} + \frac{t^3\,\mathbb{E}(X^3)}{3!}+\cdots + \frac{t^n\,\mathbb{E}(X^n)}{n!}+\cdots \\
+& = 1 + tm_1 + \frac{t^2m_2}{2!} + \frac{t^3m_3}{3!}+\cdots + \frac{t^nm_n}{n!}+\cdots,
+\end{align}
+</math>
+*[[The Pearson diagram]]
+===中位值,平均值.最可几值（median,mean,mode)===
+*中位值对应的误差mean absolute error function
+<math>mae(a) = \frac{1}{n - 1} \sum_{i=1}^n |x_i - a|, \quad a \in \R</math>
+:中位值的误差 π4n/(2n+1)*σ/sqrt(N),比平均值误差大 (假设高斯分布）
+*平均值对应的误差是 mean square error function
+<math>mse(a) = \frac{1}{n - 1} \sum_{i=1}^n (x_i - a)^2, \quad a \in \R </math>
+:参考[http://www.math.uah.edu/stat/sample/Variance.html]
+*对称分布mean=median=mode
+*mean-mode=3(mean-median)
+===方差，标准偏差，误差===
+====样本方差（sample variance）====
+<math>
+s^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_i - m)^2
+</math>
+:证明参考：[http://www.math.uah.edu/stat/sample/Variance.html]
+*样本方差的分布
+<math>\dfrac{(n-1)S^2}{\sigma^2}=\dfrac{\sum_{i=1}^n (X_i-\bar{X})^2}{\sigma^2}\sim \chi^2(n-1)</math>
+:证明参考[https://onlinecourses.science.psu.edu/stat414/node/174] [http://mathworld.wolfram.com/SampleVarianceDistribution.html]
+:chi-square(n)分布的variance是2n，因此样本方差的误差为<math>\sigma^2\sqrt{\frac{2}{n-1}} </math>
+====标准偏差（standard deviation）====
+<math>
+S = \sqrt{\frac{1}{n - 1} \sum_{i=1}^n (x_i - m)^2}
+</math>
+:其无偏估计比较复杂，其误差近似为<math>\sigma/\sqrt{2(n-1)}</math>具体可参考[[file:stderr.pdf]]
+===例子===
 *两组数据混合之后的均值和弥散
+:数组 A (i=1,N1), 其均值为 M1，弥散为 S1,数组 B(i=1,N2),其均值为M2,弥散为S2,现将A，B混合组成数组C，求其均值M3和弥散S3
+ M3=(N1*M1+N2*M2)/(N1+N2)
+ (N1+N2)*S3^2=N1*S1^2+N2*S2^2+(N1^2+N2^2)/(N1+N2)^2*(M1-M2)^2
+===两个不等式===
+*马尔科夫不等式：在知道样本期望和方差的情况下，对随机变量取值的概率约束
+*切比雪夫不等式：在只有样本数学期望的情况下，对随机变量的估值约束
+==分布函数==
+*Dirichlet distribution
+:被用来构建非参数的SFH，[arXiv.1901.02877]
+:多维的[beta分布 | https://en.wikipedia.org/wiki/Beta_distribution]，
+==极值统计==
-数组 A (i=1,N1), 其均值为 M1，弥散为 S1
+极值统计在天文中有较多应用：如观测到的高红移星系团，大的void的是否符合halo mass function的预言？ BCG的光度是否符合光度函数的极值分布？
-数组 B(i=1,N2),其均值为M2.弥散为S2
+*arxiv:1108.1358 给出了halo mass function的极值分布函数的近似，表明要用极值来区分非高斯性是有困难的。
+*arxiv:1108.5458 ： 在拿观测和理论模型进行比较的时候，可以在两个极端之间 ，1观测样本是极限情况（least probable），2，随机情况。
+*在讨论观测样本的可能数目（比如一定体积限内大于多少质量的星系团的个数）之外，还可以进一步比较观测量（比如）的分布情况。
+*极值统计的两种近似(arXiv: 1201.3526)
+:*GEV (general extreme value): Gnedenko approach 比如一个空间内最大质量星系团不超过某个极值的概率
+:*The Pareto approach 这是一个条件概率，比如是在大于某个极限的星系团中，超过这个极限某个数值的概率。
+:*这两个概率在极限情况下，就是比如星系团的极值都设得特别大的情况下都是1. 但是在非极限情况下不一致，条件概率比GEV更小一点。
+==Bayesian approach==
-现将A，B混合组成数组C，求其均值M2和弥散S3
+*Hierarchical Bayesian Meta-Analysis [http://adsabs.harvard.edu/abs/2015ApJ...806...96L] [http://arxiv.org/abs/1607.05281]
+:一种混合模型，可以结合不同的观测数据，这些数据甚至是不自洽的，有缺陷的。
+==专题==
-M3=(N1*M1+N2*M2)/(N1+N2)
+*[[copula]]
+* survival analysis  [http://cluster.shao.ac.cn/wiki/index.php/%E6%96%87%E4%BB%B6:%E5%A4%A9%E6%96%87%E6%8E%A2%E6%B5%8B%E4%B8%AD%E4%B8%8A%E9%99%90%E6%95%B0%E6%8D%AE%E7%9A%84%E5%A4%84%E7%90%86.pdf]
+* genus statistics: 分析拓补结构 参见[https://iopscience.iop.org/article/10.1086/304572/fulltext/33576.text.html]方程29，可以在ISM的image种应用，e.g. arXiv:2212.11177
+==参考网站==
-(N1+N2)*S3^2=N1*S1^2+N2*S2^2+(N1^2+N2^2)/(N1+N2)^2*(M1-M2)^2
+*http://www.math.uah.edu/stat/
+*https://onlinecourses.science.psu.edu/stat414/

“数理统计”的版本间差异

2025年2月13日 (四) 02:59的最新版本

目录

基础知识

Moment-generating function

中位值,平均值.最可几值（median,mean,mode)

方差，标准偏差，误差

样本方差（sample variance）

标准偏差（standard deviation）

例子

两个不等式

分布函数

极值统计

Bayesian approach

专题

参考网站

导航菜单

“数理统计”的版本间差异

2025年2月13日 (四) 02:59的最新版本

基础知识

Moment-generating function

中位值,平均值.最可几值（median,mean,mode)

方差，标准偏差，误差

样本方差（sample variance）

标准偏差（standard deviation）

例子

两个不等式

分布函数

极值统计

Bayesian approach

专题

参考网站

导航菜单

搜索