数据科学基础(七) 假设检验
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
7.1. 假设检验7.1.1. 假设检验问题
参数估计:讨论如何根据样本得到总体分布所含参数的优良估计.
假设检验:讨论怎样在样本的基础上观察上面所得到的估计值与真实值之间在统计意义上相拟合,从而做出一个有较大把握的结论.
例子: 设菜厂生产一种灯管,其寿命X $\sim \mathrm{N}(\mu, 40000),$ 从过去较长一段 时间的生产情况看,灯管的平均寿命为 1500 小时,现在使用了新工艺后,在所生产的灯管中抽取25只,测得的平均寿命为1675 小时,问:采用新工艺后,灯管的寿命是否有显著提高?为了判别新产品的寿命是否显著提高,提出两个假设:
原假设 $H_0:$
新产品的寿命 $\mu=1500$
接受 $H_0:$ 新产品寿命没有提高
备择假设 $H_1:$
新产品的寿命 $\mu > 1500$
拒绝 $H_0:$(接受$H_1$) 新产品的寿命有所提高.
注意:一般情况下,将希望成立的假设设为 $H_1$ ...
数据科学基础(八) 多维
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
8.1 多维概率分布分布函数: $F(x,y) = P{X \leq x,Y \leq y}$
密度函数: $\displaystyle f(x,y) = \frac{\partial F}{\partial x\partial y}$
边缘分布: 设 $(X, Y)$ 为二维随机变量,称一维随机变量 $X$ 或 $Y$ 的概率分布为二维随机变量 $(X, Y)$ 关于 $X$ 或 $Y$ 对应的边缘分布; 分别记作: $F{X}(x), F{Y}(y)_{}$
二维离散型边缘分布率:设二维随机变量 $(X, Y)$ 的分布律为 $p_{i j},$ 那么对千随机变量 $X, Y$ 其各自的分布律对于固定的 $i, j=1,2, \cdots,$ 满足
P\left\{X=x_{i}\right\}=\sum_{j} p_{i j}=p_{i}则称 $p_{i} .$ 为随机变量 $(X, Y)$ 的边缘分布律。
二维连续型的边缘概率密度:设二 ...
数据科学基础(十) 降维
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
10.1 主成分分析(PCA)不懂线性代数, 下面这些参考了一些 PCA 的说明, 但我总觉得某些解释的不是很严谨.
目标PCA 常用于高维数据的降维,可用于提取数据的主要特征分量.
对于原始数据矩阵
A=\begin{bmatrix}
x_{11} &x_{12} & \cdots & x_{1n}\\
x_{21} &x_{22} & \cdots & x_{2n}\\
\vdots & \vdots & \cdots &\vdots \\
x_{r1} &x_{r2} & \cdots & x_{rn}\\
\end{bmatrix}其中, 列向量(x_{1i},x_{2i},\cdots,x_{ri})^T 为 $n$ 个样本中的一个. $r$ 行表示 $r$ 个维度.
对该矩阵进行中心化,得到中心化矩阵 $X$
X 中心化后, 样本点的中心点即原点, 寻找点分散程度最大的方向, 即让这些点投影后的分散程度最大.
...
数据科学基础(九) 回归分析和方差分析
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
9.1 回归分析9.1.1 相关性分析
皮尔逊 (Pearson) 相关系数.
r=\frac{1}{n-1}\sum_{i=1}^{n}\frac{(X_i-\bar X)(Y_i-\bar Y)}{s_Xs_Y}$\bar X,\bar Y$ 为样本均值, $s_x,s_y$ 是样本方差.
Pearson 相关系数用于度量两个随机变量 $X,Y$ 的线性关系. 可近似估计 $\rho$ .
取值范围: $[-1,1]$ , 绝对值越接近 1 , 则线性关系越强.
对称性.
原样本经过线性变换不影响 $r$ 值.
不描述因果关系.
对相关系数 $r$ 进行显著性检验
H_0:\rho = 0, H_1:\rho\neq 0构造统计量:
\begin{aligned}\\
t&=\frac{r}{S_r}\sim t(n-2), S_r = \sqrt{\frac {1-r^2}{n-2} }
\end{aligned}若原假 ...
计算机组织结构(二) 定点运算
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
1. 移位运算1.算数移位
符号位不变, 左移相当于乘以 2, 右移相当于除以 2(左侧全补符号位).
2. 逻辑移位
无符号数的移位, 右移时永远在高位填 0.
2. 加法运算1. 全加器
$𝑆𝑖=𝑋𝑖⊕𝑌𝑖⊕𝐶{𝑖−1}$
$𝐶𝑖=𝑋𝑖𝐶{𝑖−1}+𝑌𝑖𝐶{𝑖−1}+𝑋𝑖𝑌_𝑖$
2. Serial Carry Adder
缺点: 速度慢.
延时(OR AND 1ty, XOR 3ty)
Cn: 2n ty
Sn: 2n+1 ty
3. Carry Look Ahead Adder注意:这里的+均为“或”
\begin{aligned}
𝐶_𝑖&=𝑋_𝑖𝐶_{𝑖−1}+𝑌_𝑖𝐶_{𝑖−1}+𝑋_𝑖𝑌_i\\
\\
C_1&=𝑋_1𝑌_1+(𝑋_1+𝑌_1)𝐶_0\\
𝐶_2&=𝑋_2𝑌_2+(𝑋_ ...
数据科学基础(六) 参数估计
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
6.1. 参数的点估计
总体分布 X 的分布形式已知,未知的只是分布中的参数,要估计的只是参数或者参数的某一函数.
6.1.1. 矩估计法
公式
\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i^k=A_k=\mu_k=E(x^k)
样本矩 \qquad\qquad\quad\quad 总体矩
注意: 样本阶中的计算都是 $n$ 而不会用到样本方差 $S^2$
6.1.2. 极大似然估计
估计参数值,使得出现该样本的可能性最大.
XX
X1X_1
X2X_2
X3X_3
…\ldots
XnX_n
PP(离散型)
P1P_1
P2P_2
P3P_3
…\ldots
PnP_n
PP(连续型)
f(X1)f(X_1)
f(X2)f(X_2)
f(X3)f(X_3)
…\ldots
f(Xn)f(X_n)
则 似然函数:
\begin{aligned}\\ &L(\theta) ...
C++ 多态的实现机制
若无特殊说明, 以下所有操作均在 32 位环境下进行
本篇举例子用的类:
123456789101112131415161718192021222324252627class Animal{public: Animal() {}; virtual void eat() { cout << "Animal::eat()" << endl; }; virtual void bark() { cout << "bark()" << endl; }; virtual ~Animal() {}; void growUp() { age += 1; }protected: int age = 10;};class Dog : public Animal{public: Dog() { age = 20; } vo ...
