您的当前位置：首页正文

医学统计学复习要点

2024-03-17 来源：易榕旅网

第一章绪论

1、数据 / 资料的分类： ①、计量资料，又称定量资料或者数值变量；为观测每个观察单位某项治疗的大小而获得的资料。 ② 、计数资料，又称定性资料或者无序分类变量；为将观察单位按照某种属性或者类别分组计数，分组汇总各组观察单位数后而得到的资料。

③

、等级资料，又称半定量资料或者有序分类变量。为将观察单位按某种属性的不同程度分成等级后分组计数，分类汇总各组观察单位数后而得到的资料。 2、统计学常用基本概念： ① 、统计学（ statistics）是关于数据的科学与艺术，包括设计、搜集、整理、分析和表达等步骤，从数据中提炼新的有科学价值的信息。

② 、总体（ population）指的是根据研究目的而确定的同质观察单位的全体。 ③

、医学统计学（ medical statistics）：用统计学的原理和方法处理医学资料中的同质性和变异性的科学和艺术，通过一定数量的观察、对比、分析，揭示那些困惑费解的医学问题背后的规律性。 ④ 、样本（ sample）：指的是从总体中随机抽取的部分观察单位。

⑤ 、变量（ variable）：对观察单位某项特征进行测量或者观察，这种特征称为变量。 ⑥ 、频率（ frequency）：指的是样本的实际发生率。

⑦

、概率（ probability ）：指的是随机事件发生的可能性大小。用大写的 P 表示。

3、统计工作的基本步骤： ①

、统计设计：包括对资料的收集、整理和分析全过程的设想与安排； ②、收集资料：采取措施取得准确可靠的原始数据；

③、整理资料：将原始数据净化、系统化和条理化； ④、分析资料：包括统计描述和统计推

第二章计量资料的统计描述

1. 频数表的编制方法，频数分布的类型及频数表的用途 ①

、求极差（ range）：也称全距，即最大值和最小值之差，记作 R；

② 、确定组段数和组距，组段数通常取 10-15 组；

③ 、根据组距写出组段，每个组段的下限为

L，上限为 U，变量 X 值得归组统一定

为 L≤X < U，最后一组包括下限。

断两个方面。

频数分布的类型包括对称分布和偏态分布；偏态分布主要分为右偏态分布（也称正偏态分布）和左偏态分布（也称负偏态分布）频数表的用途包括以下几个方面： ① 、描述频数分布的类型；

②

、描述频数分布的特征； ③、便于发现一些特大或特小的离群值； ④、便于进一步做

统计分析和处理。

2. 集中趋势指标的适用条件、计算方法和意义。统计学用平均数（ average）这一指标体系来描述一组变量值的几种位置或者平均水平。

常用的平均数有算术均数、几何均数和中位数。 ①、算数均数，简称均数（ mean），可用于反映一组呈对称分布的变量值在数量上的平均水平。计算方法包括直接计算法和频数表法（公式见 2-2）。

②

、几何均数（ geometric mean），可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平，在医学

研究中常用于免疫学的指标。（计算公式见于 2-3）

③ 、中位数（ median），适用于各种分布类型的资料，尤其是偏态分布资料和一端或者两端无确切数值的资料。 ④

、百分位数（ percentile）是一种位置指标，是一个界值，其重要用途是确定医学参考

值范围（ reference range）。直接计算法（公式见于 2-7、 2-8）

频数表法（ 2-9、 2-10）

④ 、分组划记并统计频数。

3、离散趋势指标的适用条件、计算方法和意义。

描述数据变异大小的常用统计指标有极差、四分位数间距、方差、标准差和变异系数。

① 、极差，一组变量值的最大值与最小值之差。

②

、四分位数间距（ quartile range， QR）是把全部变量值分为四部分的分位数后，由

第 3四分位数和第 1 四分位数相减而得。它一般和中位数一起描述偏态分布资料的分布特征。 QR=P 75-P25。

③

、方差( variance) 也称均方差( mean square deviation)离均差平方和与样本含量的

单侧： ②

、百分位数法：适用于偏态分布资料医学参考值范围的制定，所要求的样本含

比值。计算公式为 2-11

④、标准差 ( standard deviation)是方差的正平方根，其单位与原变量值得单位相同。计算公式为 2-13、2-14

量比正态分布要多(不低于 100)。计算公式为 2-25、 2-26：双侧：

⑤

、变异系数( coefficient of variation) 记作 CV ，多用于观察指标单位不同时，或者均数相单侧：

差较大时两者变异程度的比较。计算公式为 2-16

4. 正态分布的图形，正态分布的特征，正态曲线下面积的分布规律。正态分布的特征： ① 、在直角坐标的横轴上方呈钟形曲线，两端与 X 轴永不相交，且以 X= μ为对称轴，左右完全对称。

②

、在 X= μ处，f( X )取最大值，远离μ，其值越小。 ③、正态分布有两个参数，位置参数μ和形态参数σ，μ决定正态分布的曲线在坐标轴上的左右移动，越大越右移；σ决定曲线的弓背程度，越小峰值越高。

④正态分布曲线下的面积分布有一定的规律。 X轴与正态曲线所夹面积恒等于 1 或

者 100%；

区间μ±σ的面积为 68.27%；区间μ±1.96 σ的面积为 95.00%，区间μ±2.58 σ的面积为 99.00%。

5. 医学参考值范围的意义和估计方法。医学参考值( reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数，也称正常值。

由于存在个体差异，生物医学数据并非常数 ,而是在一定范围内波动，故采用医学参考值范围 ( medical reference range)作为判定正常和异常的参考标准。通常使用的医学参考值范围有 90%、 95%、99% ①

、正态分布法：数据服从或者近似服从正态分布，或者通过适当的变换转换为正态分布，采用此方法之前一般要对资料进行正态性检验且要求样本含量足够大 (如 n≥ 100) 计算公式为 2-23、2-24：双侧：

第三章总体均数的估计与假设检验

1、基本概念：

①

抽样误差 ( sampling error)：指的是由于个体变异产生、随机抽样造成的样本统计量

与总体参数的差异。

t 分布主要用于总体均数的区间估计和

t 检验。

② 标准误( standard error， SE)：指的是样本统计量的标准差。

③

均数的标准误( standard error of mean， SEM)：指的是样本均数的标准差。

※ SEM 反映样本均数之间的离散程度，也反映样本均数与相应总体均数间的差异。均数的标准误的计

算公式为 3-1、 3-2

④

统计推断( statistical inference)：通过抽样研究的方法从总体中随机抽取一个样本，用样本的信息来推断总体的特征的统计学方法，包括参数估计和假设检验。 2、标准差的用途： ①、反映资料的离散趋势。标准差越小，说明变异程度越小，均数

的代表性越好； ②用于计算变异系数； ③ 用于计算标准误；

④

结合均数和正态分布规律估计参考值范围。

3、u分布与 t分布：

u 分布(也称 Z 分布)：指的是总体均数为 0，总体标准差为 1 的标准正态分布 N(0,1 2)。

t 分布：随机变量 X 服从总体均数为μ，总体标准差为σ的正态分布 N(μ，σ ，2则) 可以通过 u 变换将一般的正态分布转化为标准正态分布。

※但是通常获得的资料为样本的均数标准误，因此经过转换后并不是完全意义上的标准正态分布，而是服从 t 分布。（计算公式为 3-3 ）

B、两总体均数之差的可信区间： ※前提：两总体方差相等，但均数不等计算公式见于 3-12、3-13、3-14

4、可信区间：从固定样本含量的已知总体总进行重复随机抽样试验，根据每个样本可算得一个可信区间，则平均有

不是总体参数落在该范围的可能性为

1-α。

C、假设检验的错误

1-α（如 95%）的可信区间包含了总体参数，而

5、参考值范围和总体均数可信区间的区别

见课本表 3-2 6、标准差与标准误的区别和联系：

Ⅰ 型错误：拒绝了实际上成立的 H0 ，这类“弃真”的错误；（α） Ⅱ型错误：“接受”了实际上不成立的 H0 ，这类“取伪”的错误。（β）注意： ①α越小，β越大；反之α

标准差

均数的标准误

意义记反映 X 的抽样误

差大小

反映一组数据的离散情

况

越大，β越小；

②若重点是减少Ⅰ 型错误，一般取α =0.05；若重点是减少Ⅱ型错误，一般取β=0.10

或者 0.20 甚至更高；

法

( SX )

(S)

(X ) 2 计

算

S X S n

S (nX 1X )2 控制增加 n

不能通过统计方法来控

方法

制

7、总体均数可信区间的计算：

※根据总体标准差σ是否已知以及样本含量 n的大小而异，通常有 t 分布和 u 分布两类方法。

、单一总体均数的可信区间：

a、总体标准差σ已未知：按 t 分布双侧和单侧公式见 3-5、3-6、 3-7 b、σ已知或者未知，但 n 足够大（如> 60）时：按 u 分布双侧和单侧公式见 3、8、 3-9、3-10 8、 t 分布图的特征： ① 、单峰分布，以 0 为中心，左右对称；

②

、 t 分布的曲线形态取决于自由度 v 的大小，自由度越小，则 t 值越分散，曲线的峰

部越矮而尾部翘得越高； ③、当自由度逼近无穷的时候，样本标准误接近总体标准误， t 分布逼近标准正态分布。（标准正态分布是 t 分布的特例） 9、t 检验的适用条件

t 检验（ t test/Student t-test ）当σ未知且样本含量较小时（如 n< 60），理论上要求 t 检验的样本随机地取自正态分布的总体，两小样本均数比较式还要求两样本所对应的两总体方差相等，即方差齐性。在实际应用中，如与上述条件略有偏离，对结果影响也不大。 10、假设检验

A、假设检验的基本思想：利用小概率反证法的思想，从问题的对立面（ H0）出发

简介判断要解决的问题（ H1）是否成立。即在假设 H0 成立的条件下计算检验统计量，然后

根据获得的 P 值来判断。

B、假设检验的基本步骤：①建立检验假设，确定检验水准； ②计算检验统计量； ③

确定 P 值，做出推断结论。

③ 若要同时减小Ⅰ 型和Ⅱ型错误，唯一的方法就是增加样本含量 n ； ④ 拒绝 H0 ，只可能犯 I 型错误；接受 H0，只可能犯Ⅱ型错误。

单样本 t 检验两样本（样本含量较配对样本 t 检验小， ≤ 60）适用于已知样本均数和已知总体均数的比较适用于配对设计的计量资料适用于任意两计量资料的比较方差不齐 t 分布（ v=n-1 ）对方差齐与否无要求正态分布对方差齐与否无要求 t 分布（ v=n-1 ）正态分布 t 分布方差齐正态分布 ( v=n1+n2-2 ) t值 t值 t值两样本 t 检验 / 成方差齐组 t 检验 Cochran&Cox 近似 t 检验 t 分布方差不齐正态分布 Satterthwaite近似 t 检验 t 分布 t'值（校正 t 值） t'值（校正自由度）资料或数据计量资料（已知均数和/或标准差）多样本完全随机设计资料的方差分析方差不齐正态分布 ※两样本的方差比较时，可以使用 F 检验，分子为较大的样本方差（自由度为布，统计值为 F 值。完全随机化分组方法将试验对象分配到 g F 分布个处理组中去，试验后比较各组均数之间的差别 F 分布随机区组设计资随机分配的次数要重复多次，且各个处料的方差分析理组实验对象数量相同，区组内均衡 n1-1）；分母为较小的样本方差（自由度为方差齐正态分布 F值 n2-1）。 F 值满足 F 分与成组 t 检验意义相同方差齐正态分布 F值与配对 t 检验意义相同拉丁方设计资料可多安排一个已知的对实验结果有影响的F 分布的方差分析非处理因素，增加了均衡性，减少了误差，提高了效率两种处理在全部实验过程中交叉进两阶段交叉设计资料的方差分析 ※多样本的多重比较方差齐正态分布 F值 F 分布方差齐正态分布 F值两个阶段之间一定要经过一段洗脱阶段以消除残留效应 t 值行 LSD-t 检验/ 最小显著差异 t 检验，适用于一对或者几对在专业上有特殊意义的样本均数间的比较，统计量为 Dunnett-t 检验适用于 g-1 个实验组与一个对照组均数差别的多重比较，统计量为 SNK-q 检验适用于多个样本均数两两之间的全面比较，统计量为 q 值

Dunnett-t 值

※多样本的方差比较 Bartlett 检验，要求资料具有正态性，统计量为卡方；

Levene 检验，比 Bartlett 检验要求低，不需要资料具有正态性，统计量为

F 值。

分类资料四格表资料通过两个样本的样本率来反映总体率有无差异卡方分布无方差齐性要求无正卡方值态分布要求无方差齐性要求无正卡方值态分布要求无方差齐性要求无正态分布要求无方差齐性要求无正卡方值态分布要求卡方值 ※与两样本的 u 检验等价：u2= 卡方值同的试卡方分布配对四格表资料强调配对：即针对同一样本采取不验或者处理方法。行×列表资料用于多个样本率的比较、两个或多个构成卡方分布比的比较以及双向无序分类资料的关联性检验多样本率的多重比适用于多样本率两两之间的多重比较（基卡方分布较本思想：对卡方值进行校正）卡方分布 ※可用来分析两个分类变量之间有无关系或者关联 H0: H1 频数分布的拟合优推断频数分布的拟合优度适用于正态分度不满足上述统计方配对样本的检其他类法的资料、等级资验两独立样本比较料—— 秩检验型资料布、二项分布、 poisson 分布和负二项分布无方差齐性要求无正卡方值态分布要求推断某现象的频数分布是否符合某一理论分布样本量 n>50 时可用正态分布近似法适用于配对样本差值的中位数和 0 比较；还可用于单个样本中位数和总体中位数比较无方差齐性要求无正秩和（正秩和态分布要求或负秩和）T值适用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布是否有差别方差不齐正态分布秩和（正秩和或负秩和）T值无方差齐性要求无正H 检验 H 值态分布要求 n1> 10 或 n2-n1>10 可用正态分布近似法作 u 检验 g=3 且最小样本的例数大于 5或 g>3，H 近似服从 g-1 的正态分布，可用卡方分布法完全随机多样本比用于推断计量资料或者等级资料的多较个独立样本所来自的多个总体分布是否有差别多变量资料的处理双变量直线回 ——回归与相关归用于对两变量总体间线性关系的估计线性、独立、方差齐性、误差服从均数为 0 的正态分布回归方程（回归系数）相关系数 r 双变量直线相关多元线性回归用于判断两个数值变量之间有无线性关系，双变量正态分布资料正态分布相关系数求出后应做假设检验用于分析一个应变量与多个自变量之间的线性关系正态分布多元回归方程回归方程求出后应做整体假设检验以及各自变量的假设检验第四章多样本均数比较的方差分析

1、概念： ① ②

离均差平方和 (sum of squares of deviation from mean, SS)指的是各个观测值与总均均方差，简称均方( mean squareM, S)指的是离均差平方和与自由度之间的比值。

g 组，分别接受不同水

随机区组设计资料：正态分布且方差齐：双向分类的方差分析配对 t 检验(意义相同 t2 =F ) 非正态分布或 / 和方差不齐：变量转换→双向分类的方差分析 Friedman M 检验初衷：考虑环境因素对实验结果的影响。

7、拉丁方设计资料的方差分析：可多安排一个已知的对实验结果有影响的非处理因素，增加了均衡性，减少了误差，提高了效率。

完全随机设计只涉及一个处理因素；随机区组设计涉及一个处理因素、一个区组因素；如果实验研究涉及一个处理因素和两个控制因素，每个因素的类别数或水平数相等，此时可采用拉丁方设计。变异来源总变异处理组行区组列区组误差自由度数差值的平方。

2、方差分析的基本思想：

设处理因素有 g( g≥2)个不同的水平，实验对象随机分为数之间的差别大小，推断 g 各总体均数间有无差别。

3、方差分析的应用条件为：各个样本是相互独立的随机样本，均来自于正态分布总体；相互比较的各个样本的总体方差相等，即具有方差齐性。

4、方差分析的变异分析：总变异的大小—— SS总：各个观测值与总均数差值的平方和；组间变异的大小—— SS组间：各组均数与总均数的离均差平方和；组内变异的大小—— SS组

内：组内个观测值与其所在组的均数的差值的平方和。并有 SS总=SS 组间+SS 组内由于组间

平的干预。方差分析的目的就是在 H0 ：μ1= μ2=⋯⋯ = μg 成立的条件下，通过分析各处理均

MS F MS 处理 / MS 误差 MS 行 / MS 误差 MS 列 / MS 误差 N-1 g -1 g -1 g -1 (g -1)(g -2) MS 处理 MS 行 MS 列 MS 误差与组内的离均差平方和的自由度不同，因此单纯的比较并无实际意义。 MS 组间 =SS 组间/v 组间； MS 组内 =SS 组内 /v 组内 5、完全随机设计资料的方差分析：变异来源总变异组间组内自由度 8、两阶段交叉设计资料的方差分析

该设计不仅平衡了处理顺序的影响，而且能把处理方法间的差别、时间先后之间的差别和实验对象之间的差别分开来分析。

9、多样本均数间的多重比较方法： LSD-t 检验、 Dunnett-t 检验、 SNK-q 检验三种。 10、多样本方差比较： Bartlett 检验、 Levene 检验

MS F MS 组间 /MS 组内 N-1 g-1 N-g MS 组间 MS 组内成组 t 检验(意义相同 t2 =F )

非正态分布或 / 和方差不齐：变量转换→单因素方差分析

秩和检验

完全随机设计资料：正态分布且方差齐：单因素方差分析

第五章计数资料的统计描述

1、基本概念： ①

、相对数( Relative number)：是两个有关联的数据之比，用以说明事物的相对关系，

6、随机区组设计资料的方差分析：变异来源总变异处理间区组间误差自由度便于对比分析。

MS F MS 处理 / MS 误差 MS 区组 / MS 误差常用的相对数指标很多，按联系的性质和说明的问题不同，主要分为：率、构成、相对比三类。 ②

、强度相对数 -- 频率( frequency)：是最常见的一种相对数，频率在实践中又称为比率( proportion )。它表示事物内部某个组成部分所占的相对多少。

N-1 g -1 n -1 (n -1)(g -1) MS 处理 MS 区组 MS 误差 ③ 、结构相对数一构成比(constituent ratio):说明某事物内部各组成部分所占的比重或分布，又称构成比。

构成比可相加，和等于 100%o

A和B之比，简称比。A

%)表示。

④ 、优势相对数 --比(ratio):是指两个有关联的指标

和B可以是性质相同，也可以是性质不相同。通常以倍数或百分数( 采用统一标准调整后的率为标准化率，简称为标化率( standardized ratq) o

⑤ 、率的标准化法：指的是消除内部构成差别，使总体率能够直接进行比较的方法。

标准化的基本思想：采用统一的“标准人口构成”，以消除人口构成不同对各组总率的影响，使算得的标准化率具有可比性。

⑥ 、动态数列(dynamicseries)是按时间顺序排列的统计指标 (可以为绝对数，相

对数或平均数)，用以观察和比较该事物在时间上的变化和发展趋势。

分析动态数列常用的指标有：绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。

⑦ 、发展速度：表示报告期指标的水平相当于基线期(或前一期)指标的百分之多少或若干倍。 ⑧ 、增长速度：表示的是净增加速度，增长速度二发展速度-1 (100%)o 2、率的标准化的注意事项： ① •标准化后的标准化率，水平，

的资料间的相对水平。

② •两样本标准化率是样本值,存在抽样误差。当样本含量较小时，无需进行t、F检验)

比较两样本的标

准化率，需要作假设检验。(但如果比较的两者是总体的参数，则可进行直接比较，

它只是表示相互比较

已经不再反映当时当地的实际

第六章几种离散型变量的分布及其应用

连续型分布举例：u分布、t分布和F分布；

常用离散型分布：二项分布、 Poisson分布、负二项分布。 1＞基本概念

① 、二项分布(binomial distribution ):是指在只会产生两种可能结果之一的立重复试验中，当每次实验的“阳性”的概率冗保持不变时，出现“阳性”次数 X=0,1,2……n的一种概率分布。

② 、Poisson分布(Poisson distribution ):是二项分布的一种极端形式，指的是每次实验的“阳性”概率比较低的时候，出现阳性次数的相应概率满足以入为参数的

n次独

X〜P(为。

2、二项分布的适用条件：

① 、每次试验只会发生两种队里的额可能结果之一，和很等于1;

② 、每次试验产生某种结果的概率固定不变； ③ 、重复试验是相互独立的，不相互影响。 3、二项分布的性质

① 、样本率的标准差也称为率的标准误，可以用来描述样本率的抽样误差，率的标准误越小，则率的抽样误差就越小。

② 、当7t=0.5时，二项分布图形是对称的，当冗工 0.5时，图形是偏态的，随着 n增大，图形趋于对称。当布。

③ 、利用二项分布的性质，可进行总体率的区间估计和差异推断。查表得到可信区间，>

50是可采用近似正态分布法)

(当nW 50时可

无穷时，只要冗不太靠近 0或1,二项分布则近似正态分

即分别

4、 Poisson分布的适用条件：普通性：才充分小的观测单位上相同。

5、 Poisson分布的性质： ① 、总体均数入与总体方差(T

2相籀葩n分布的重要特征；

② 、当n很大，而冗很小时，且门庐入为常数时，二项分布近似 Poisson分布；

③ 、当入增大时，Poisson分布逐渐近似正态分布。一般而言，入》 20时，Poisson分布资料可作为正态分布处理。

④ 、Poisson分布具备可加性。 6、 Poisson分布的图形特点：

当入越小，分布就越偏态；当入越大时，Poisson分布则越渐近正态分布。当入w 1时, 随X取值的变大，P (X)值反而会变小；当入〉1时，随X取值的变大，P (X)值先增大后变小。

X的取值最多为1;

独立增量性：重复实验室相互独立的，不相互影响；平稳性：每次试验阳性时间发生的概率都应

第七章卡方检验% 2

1> x 2分布曲线的特点：x

2分布曲线的形状依赖于自由度的大小①当自由度殳时,

曲线呈L形；随着自由度的增加，曲线逐渐趋于对称；当自由度t无穷时，x 趋近正态分布。 2、 x 2分布的基本性质：可加性； 3、满足

％ 2检验的原理：通过实际频数和理论频数f(xX来推断实际频数与理论频数

的差异大小及有无统计学意义。 4、几种常见的资料类型： ①

、普通四格表：自由度 =(行数 -1)(列数 -1)

χ 2 可使用四格表专用公式；

×： n≥40 且所有的 T≥5 →使用基本公式；

P≈α时，改用 Fisher 确切概率法；

n≥40 但有 1≤T≤5 →四格表校正公式或者 Fisher确切概率法 n<40 或 T<1 Fisher 确切概率法 ②

配对四格表资料： b+c<40且 1≤T≤5 要校正；

5、Fisher 确切概率法思想：四格表资料周边合计数不变的条件下，计算表内 4 个实际频数变动时的各种组合之概率；再按照假设检验用单侧或双侧的累计概率依据所取得检验水准α做出推断。

6、行×列表资料使用范围：多个样本率的比较；样本构成比的比较；双向无序分类资料的关联性检验；

7、多个样本率的多重比较：多个实验组间的两两比较与实验组与同一对照组的比较均应对α进行校准，且方法相同。 8、拟合优度检验：

适用范围：推断某一现象的频数分布是否符合某一理论分布；比较实际频数与理论频数的差异大小。

第八章非参数检验

1、非参数检验的适用范围： ①不满足正态分布和方差齐性条件的计量资料； ②对于分布不知道是否正态的小样本资料； ③对于一端或两端是不确定值得资料； ④ 推断等级资料的等级强度差别。

2、主要数据资料类型：

① 配对样本比较： (样本量> 50时可以采用近似正态法作 u 检验) H0：样本总体中位数 = 人群总体中位数； H1：样本总体中位数≠人群总体中位数。

②

两独立样本的比较： ( n1> 10 或 n2-n1> 10 时，令 n1+n2=N ，作近似正态分布检验) H0：两样本总体分布位置相同； H1：两样本总体分布位置不同。 ③

完全随机多个样本： H0：多个样本总体分布位置相同；

H1：多个样本总体分布位置不全相同。

注意：当完全随机的多个样本为两个样本时，使用完全随机多个样本的检验方法求得的统计值 H(或 HC)与使用两独立样本的 u检验求得的 u 值等价。 H=u2。

第九章：双变量回归与相关

1、直线回归(linear regression)：因变量 Y随着自变量 X 的变化而变化呈直线趋势，但并非所有的对应点恰好全都在一条直线上，称为直线回归或者简单回归。注：a 为常数项，是回归直线在 Y 轴上的截距；

b 为回归系数 ( coefficient of regression)，为直线的斜率；其统计意义是当 X 变

化一个单位时 Y 的平均改变的估计值。

直线回归方程的求法基本原则：最小二乘( least sum of square)s 将实测值与假定回归线上的估计值的纵向距离称为残差(

residua)l 或剩余值。为了

使各点残差尽可能的小，考虑到所有点之残差有正有负，所以通常取各点残差平方和最小的直线即为所求，如此得到的回归系数最理想。统计推断的检验：方差分析 F 检验或者 t 检验

两者等价： t=F2 b离 0越远， Y受 X 的影响越大， SS回就越大，回归效果越好； SS残越小，估计误差越小，回归作用越明显。

2、直线相关( linear correlation)：两个数值变量进行比较时，一个变量在增加或者减少时，另一个变量也表现为增加或者减少，这两个变量之间的关系即为直线相关。相关系数( correlation coefficient) 又称为 pearson 积差相关系数，以符号 r 表示样本相关系数，符号ρ表示其总体相关系数。用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数的统计推断： t 检验决定系数( coefficient of determination )：为回归平方和与总平方和之比。其数值大小反映了回归贡献的相对程度，也就是在 Y 的总变异中回归关系所能解释的百分比。

3、残差图考察数据是否符合模型假设的基本要求：

① 、应变量与自变量关系为线性； ② 、误差服从均数为 0的正态分布； ③ 、方差相等； ④ 、各观测对象独立。

4、直线回归与直线相关的区别和共同点区别：①相关系数无单位，回归系数有单位；

② 相关表示相互关系，没有依存关系，回归有依存关系；

③ 两者对资料的要求不同：当 X和丫都是随机的，可以进行相关和回归分

析；当Y是随机变量，X是控制变量时，理论上只能做回归分析。联系：①均表示线性关系；

② 符号相同，共变方向一致； ③ 假设检验结果相同；（tr=tb ）

④ 可以互相换算（数值的相同不代表意义的相同）

第十二章重复测量设计资料的方差分析

1＞重复测量设计资料的数据特征：

① 、未设立平行对照的前后测量设计：（重复测量资料最常见的情况是前后测量设计）

前后测量设计与配对设计 t检验的区别： a、

一对子的两个实验单位可以随机分配处理，两个实验单位

察实验结果，可以比较处理组间差别；前后测量设计不能同期观察实验结果，虽然可以在前后测量之间安排处理，但本质上比较的是前后差别，推论处理是否有效是有条件的，即假定测量时间对观察结果没有影响。

b、配对t检验要求同一对子的两个实验单位的观察结果分别是差值相互独立，差值服从正态分布。而前后测量设计前后两次观察结果通常与差值不独立，况第一次观察结果与差值存在负相关的关系。

c、配对设计用平均差值推论处理的作用，前后测量设计出了分析平均差值外，还可进行相关分析。

② 、设立平行对照的前后测量设计：

虽然分为处理组和对照组，但是不能进行差值均数

t检验，因为通常两组差值的方

大多数情配对设计中同同期观

差不会相等。 ③ 、重复测量设计：

重复测量数据与随机区组设计数据相似，两者的差别是：

a、重复测量设计中处理是在区组间随机分配，区组内的各时间点是固定的，不能随机分配；随机区组设计则要求每个区组内实验单位彼此独立，随机分配，每个实验单位接受的处理是不相同的。

b、重复测量设计区组内实验单位彼此不独立，而随机区组内实验单位彼此独立，如果按照随机区组进行 t检验则要求进行统计值的校正。

处理只能在区组内

第十五章多元线性回归资料的分析

适用范围：分析一个应变量与多个自变量之间的线性关系； 1>多元线性回归模型的一般形式：

Y=刃+ 31X1+化X2+……+ 3mXm+e

Xj增加或减少

a、偏回归系数3的意义：表示在其他自变量保持不变的时候，一个单位时Y的平均变化量。

b、偏回归分布的应用条件： ① 、丫与各个变量之间有线性关系； ② 、各例观测值Yi相互独立； ③ 、残差e服从均数为0,方差为3

2的正态分布（等价于对任意一组自变量 X1>

X2……Xm值，应变量Y具有相同方差，并且服从正态分布）

c、参数的计算方法：最小二乘法

2、多元线性回归方程的假设检验及其评价：（对整体的假设检验） A、可以将回归方程中所有的自变量作为一个具有线性关系。

假设检验方法：方差分析法： 1）

偏回归平方和与残差平方和的比值，其值越接近合程度越好。

2）复相关系数：决定系数开根号，可用来度量应变量与多个自变量之间的线性相关程度。 B、各自变量的假设检验：

H0: 31= ^2= = ^nn=0 ; H1 :各內不全为0.

决定系数 R2:即为1,说明拟

若拒绝H0,接受H1,即可确定所拟合的回归方程有统计学意义。

整体来检验它们与应变量丫之间是否

① 、使用方法为偏回归平方和（SS回（Xj））：表示在个自变量的基础上新增加 Xj所引起的回归平方和的增加量。其值越大，说明偏回归平方和检验：HO: 3=0;H仁內工0

注意：单独分析各个变量的偏回归平方和，所有值的和小于总的回归平方和，其原因是忽略了各个变量之间的相互作用成分。

② 、t检验法：对于同一资料，不同自变量的t值间可以相互比较，t的绝对值越大，说明该自变量对Y的回归所起的作用越大。 ③

标准化回归系数：减少自变量观测单位不同对结果的影响。

Y的作

在有统计学意义的前提下，标准化回归系数的绝对值越大说明相应自变量对用越大。

3、自变量选择方法： A、全局择优法：

① 、校正决定系数 Rc选择法(当R2相同时，自变量个数越多， Rc最大)

② 、Cp选择法：应选择 Cp最接近p+1的回归方程为最优方程。 B、逐步选择法：

① 、前进法：(只选不剔)在有统计学意义的前提下，选取偏回归平方和最大的一个自变量做F检验以决定是否选入°

② 、后退法：(只剔不选)选取回归平方和最小的一个自变量做剔除。

③ 、逐步回归法：先选后剔，双向筛选。本质上是前进法，但每引入一个自变量进入方程后，要对方程中的每一个自变量做基于偏回归平方和的剔除一些退化为不显著的自变量。

注意：为了避免已经剔除的自变量再次入选，等于剔除自变量的检验水准。

选入自变量的检验水准要小于或

F检验，看是否需要 F检验以决定是否 Rc越小，最优为

Xj越重要。

第十六章logistic回归分析

logistic回归(logistic regression)属于概率型非线性回归。适用对象：二分类或多分类影响因素之间的关系。

1＞表示方法：阳性概率 P=1/1+exp(-Z) Z=份+ 31X1+磴X2+……+ pmXm

P 的 logit 转换：logit P=ln(p/1-p)=

份 + 31X1+ 化X2+ ……+ 3mXm

回归系数3 j表示自变量Xj改变一个单位时logit P的该变量。 2、模型参数的意义：

①、确定优势比(odds ratio, OR) ------------- 衡量危险因素作用大小的比数比例

OR适用于分类指标而不适用于计量指标；多变量调整后的优势比危险因素的作用。

用来对比某一危险因素两个不同暴露水平

Xj=c1和Xj=cO之间的发病情况。

1)沪0时，ORjh ,说明因素Xj对疾病的发生不起作用； 2) 色>0时，0Rj>1,说明因素Xj对疾病发生起危险作用； 3) BjvO时，ORjvl,说明因素Xj时一个保护因子。

②、确定相对危险度(relative risk, RR) 对于发病率很低的疾病存在优势比即等于两种暴露水平之间的相对危险度。

2> logistic回归方程的参数估计：

主要方法有最大似然估计法( maximum likelihood estimate, MLE )和优势比估计法。 3> logistic回归的适用对象：

① 、比较各暴露因素的致病风险的大小； ② 、多因素的共同作用的评价；

③ 、危险因素的筛选：多经文献报道选取，但统计学资料不能代替专业依据 4> logistic回归模型的假设检验：

常用的检验方法有似然比检验(likelihood ratio test) > Wald检验和计分检验(score test) 统计量为卡方值

logistic回归模型变量的筛选与多元线性回归相同。

(adjust odds ratio) ORj:表示扣除了其他自变量影响后

第十七章生存分析

1>生存分析资料与一般资料比较的不同： ① 、同时考虑生存时间和生存结局； ② 、通常含有删失数据；

③ 、生存时间的分布通常不服从正态分布。 2、概念：

生存时间(survival time),从起始事件到终点事之间所经历的时间跨度。

完全数据(complete data),在追踪观察中，当观察到了某观察对象的明确结局时，该观察对象所提供的关于生存时间的信息是完整的，据。

不完全数据(incomplete data),在实际追踪观察中，由于某种原因无法知道观察对象的确切生存时间，这种生存时间数据也称为截尾数据。

生存率(survival rate)是指病人经历给定的时间之后仍存活的概率，应用乘积极限法。

生存概率(probability of survival )表示某段时段开始时存活的个体，到该时段结束时仍存活的可能性。

死亡概率(probability of death )表示某段时段开始时存活的个体，到该时段结束时死亡的可能性。

若有截尾数据,

这种生存时间数据称为完全数

死亡率（ death rate）指的是某单位时间内的平均死亡强度。四分位数间距 :记为 Q ，表示中间半数病人生存期的分布范围，它反映生存期的离散程度，其定义为： Q＝T25－T75，式中， T25 和 T75 分别是 25百分位数和 75 百分位数．

3、生存率的估计与生存曲线：小样本的生存率估计： kaplan-Meier 法（又称乘积极限法）大样本的生存率估计也可使用上述乘积极限法。。

4、生存率的比较：最常见的方法是使用 log-rank 检验（也称为 Mantel-Cox 检验）其基本思想为实际死亡数与理论死亡数之间的比较。统计量为卡方值假设检验： H0:St（1）=St（2），即两种方式的患者生存率相同；

H1：两种方式的患者生存率不同

5、多因素生存分析方法： Cox 比例风险模型（为半参数法）其参数的估计采用的方法为最大似然估计法因素的筛选与多元线性回归模型相同。注意： Cox比例风险回归模型的主要前提条件是假定风险比值 h（t）/h0（t）为固定值，

即协变量对生存率的影响不随时间的改变而改变。

第二十七章——第二十九章

1、医学科学研究的分类：

按照目的：验证性研究和探索性研究按照形式：观察性研究与实验性研究

按照指标：单因素研究和多因素研究按照时限：前瞻性研究、回顾性研究和横断面研究按照对象：临床试验、社区研究和实验研究 2、医学科学研究的基本步骤： ①、选题；

②、制定研究方案； ③ 、收集资料； ④ 、数据整理与分析； ⑤

、撰写研究报告。

3、调查研究（ survey research）是指在没有任何干预措施的条件下，客观地观察和记录研究对象的现状及其相关特征。

调查研究的特点是：研究的对象及其相关因素是客观存在的，不能用随机化分组来平衡混杂因素对调查结果的影响。 4、常用的抽样方法包括：

单纯随机抽样（简单随机抽样）、系统抽样（机械抽样）、分层抽样（分类抽样）、整群抽样和多阶段抽样。

5、观察性研究中估计总体参数所需样本含量的条件：

（1）、可信度 1-α：其值越大，可信区间估计的可靠性越好，但相应所需样本含量就越大。（2）、总体的标准差σ：其值越大，相应所需的样本含量也越大。

（3）、容许误差δ：即预计样本统计量与相应总体参数的最大相差控制所在的范围。用上面的三个条件求得的样本含量的意义是：当样本含量为 n 时，用统计量来估计总体参数，两者之差不超过δ的可能性是

1-α。

6、实验设计的三个基本组成部分：实验单位、处理因素和实验效应注意：特异性：反映该指标鉴别真阴性的能力，特异度高的指标能较好的揭示处理因素的作用

灵敏性：反映该指标检出真阳性的能力，灵敏度高的指标对外界的反应灵敏，

能将处理因素的效应更好的显示出来。

7、实验设计的基本原则：对照（ control ）、随机化（ randomization）、重复（ replication） 8、实验性研究中估计总体参数所需样本含量的条件：

（1）、假设检验的Ⅰ 型错误概率α的大小： α越小，所需样本含量越大。对于相同α，双侧检验比单侧检验所需样本含量多。

（2）、假设检验的Ⅱ型错误概率β或检验效能（ 1-β）的大小：β越小，所需样本含量越多。（3）、容许误差δ的大小：其值越大，所需样本含量越小。

（4）、总体的相关信息：总体标准差越大，所需样本含量越多；总体率越接近于 0.5，所需样本含量越多；总体相关系数越小，所需样本含量越多。总体的参数可通过样本来估计。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文