生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。P2
生物统计学的基本作用:提供整理和描述数据资料的科学方法,确定某些性状和特征的数量特征。运用显著检验,判断试验结果的可靠性或可行性提供由样本推断总体的方法。提供试验设计的的一些重要原则。
具有相同性质或属性的个体所组成的集合称为总体,它是指研究对象的全体;
个体:组成总体的基本单元称为个体;
样本:从总体中抽出若干个体所构成的集合称为样本 构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小,样本容量常记为n。
一般在生物学研究中,通常把n≤30的样本叫小样本,n >30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。
研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。 变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。 常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。
连续变量-- 可以有任何小树出现 变 定量变量 非连续变量--只有整数出现
量 定性变量
为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。
描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差; 描述样本特征的数量称为统计数,也称统计量。常用拉丁字母表示统计数,例如用表示样本平均数,用s表示样本标准差。
通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。
互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。 随机误差,也叫抽样误差(sampling error) 。这是由于试验中无法控制的内在和外在的偶然因素所造成。
系统误差,也叫片面误差 (lopsided error)。这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。 效应 变异
随机误差/机误 误差
系统误差/错误
准确性,也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为μ,观测值为 x,若 x与μ相差的绝对值|x-μ|越小, 则观测值x的准确性越高; 反之则低。
精确性,也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi -xj |越小,则观测值精确性越高;反之则低。
数量性状:是指能够以计数和测量或度量的方式表示其特征的性状 计数资料:指用计数方式获得的数量性状资料。 计量资料:指用测量或度量法获得的数量性状资料
质量性状资料:是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料,也称为属性性状资料。处理方法有:统计次数法、评分法 资料来源:调查、实验
资料调查的方法:普查、抽样调查 随机抽样必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。
试验设计须遵循的三大原则是:随机、重复和局部控制。 计数资料基本上采用单项式分组法进行整理 次数分布表
1、标题 简明扼要、准确地说明表的内容,有时须注明时间、地点。
2、标目 标目分横标目和纵标目两项。横标目列在表的左侧 ,纵
标目列在表的上端,标目需 注 明计算单位,如%、kg、cm等等。 3、数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致, 无数字的用“─”表示,数字是“0”的,则填写“0”。 4、线条 多用三线表,上下两条边线略粗。 计量资料的整理
1、计量资料一般采用组距式分组法。 2、确定组数和组距 3、确定组限和组中值
4、分组,编制次数分布表(P9--14)
集中性 是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。
离散性 是变量有着离中分散变异的性质。
平均数 平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。
算术平均数的重要性质:1、离均差之和等于零。Σ(x-x) = 0 2、离均差平方和最小Σ(x-) 2 <Σ(x-a) 2 算术平均数的作用:(1)指出一组数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其他资料进行比较。(3)通过平均数提供计算样本变异数的基本数据。(4)用样本的平均数估计总体平均数。 变异数:包括极差、方差、标准差、变异系数 极差是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。
离均差:求出各个观测值与平均数的离差,即离均差。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差之和为零。 样本方差
标准差:方差的平方根,用S或σ表示
自由度:样本内独立而能自有变动的离均差个数
事件:在一定条件下,某种事物出现与否就称为是事件。 必然事件:在一定条件下必然出现某种结果或必然不出现某种结果。包括必然事件和不可能事件
随机事件:在一定条件下可能发生也可能不发生。
频率:设在相同的条件下,进行大量重复试验,若事件A的频率稳定地在某一确定值p的附近摆动,则称p为事件A出现的概率。 和事件:事件A和事件B中至少有一个发生而构成的新事件称为事件A和事件B的和事件,记作A+B。
积事件:事件A和事件B中同时发生而构成的新事件称为事件A和事件B的积事件,记作A•B。
互斥事件:事件A和事件B不能同时发生,则称这两个事件A和B互不相容或互斥。
对立事件:事件A和事件B必有一个发生,但二者不能同时发生,且A和B的和事件组成整个样本空间。即A+B=U,AB=V。我们称事件B为事件A的对立事件。
独立事件:事件A和事件B的发生无关,事件B的发生与事件A的发生无关,则事件A和事件B为独立事件。
完全事件系:如果多个事件A1、A2、A3、…、An两两互斥,且每次试验结果必然发生其一,则称事件A1、A2、A3、…、An为完全事件系。
二项分布 变 离散型变量 泊松分布 量
连续型变量 正态分布
二项总体:“非此即彼”的事件所构成的总体称为二项总体。其概率分布称为二项分布 2 正态分布记N(μ,σ)(平均数、方差),标准正态分布N(0,1) 标准化:P(x1≤x )进行抽样,其样本平均数x是一具有平均数 μ,方差σ2/n的正态分布,记作N(μ,σ2/n)。(被抽总体不是正态分布总体,但具有平均数μ和方差σ2 4)如果 ,当随样本容量n的不断增大,样本平均数 x 的分布也越来越接近正态分布,且具有平均数μ,方差σ2 /n 。 样本平均数差数的分布的性质:(1)样本平均数差数的平均数 = 总体平均数的差数. (2)样本平均数差数的方差 = 两样本平均数方差之和. (3)从两个独立正态分布总体中抽出的样本平均数差数的分布,也是正态分布。 T分布 (1)t分布曲线是左右对称的,围绕平均数μt =0 向两侧递降。 (2)t分布受自由度df=n-1的制约,每个自由度都有一条t分布曲线。(3)和正态分布相比,t分布顶端偏低,尾部偏高,自由度df>30时,其曲线接近正态分布曲线,df→∝时则和正态分布曲线重合。 单位。 重复:在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4个重复。 方差:又叫均方,是标准差的平方,是表示变异的量。 固定模型:指各个处理的效应值τi 是固定值,各个的平均效应τi = μi - μ是一个常量,且∑τi =0。就是说除去随机误差以后每个处理所产生的效应是固定的。 随机模型: 指各处理的效应值τi 不是固定的数值,而是由随机因素所引起的效应。 混合模型:指多因素试验中既有固定因素又有随机因素时所用的模型. P93—97 LSD和LSR或SSR检验方法 ,标记字母法,各类数据来源和如何分析 方差分析表的格式如 卡方分布的计算 F检验:F的取值区间为[0,+∝)计算 = H0: H A: F 接受H假设检验(hypothesis test)又称显著性检验(0 处理间差异不显著 significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。 假设检验步骤:1、提出假设,无效假设H0,0 0 = ,备择假设H2、确定显著水平。常取A,=0.05和=0.01两个显著水平 3 、选定检验方法,计算检验统计量,确定概率值 4、作出推断结论:是否接受假设 小概率原理:概率很小的事件在一次试验中我们认为它不可能出 双尾检验:假设检验的两个否定区,分别位于分布的两尾 假设检验的两类错误:第一类错误又称弃真错误或 错误;指H0是真实的,假设检验却否定它,犯了否定真实值的错误。第二类错误,又称纳伪错误或 错误;指H0不真实,假设检验却接受了它,否定HA,犯了接受不真实假设的错误 计算题:P55—60页例题 P67页一个总体平均数的区间估计与点估计 卡方检验的步骤:O--实际观察的频数 E--无效假设下的期望频数 基本步骤1.提出无效假设H0和备择假设2.确定显著水平α3.计算样本的χ2值4.进行统计推断χ2 < 则P > 接受H(符合理论值)适合性检验的步骤P77 独立性检验2*C表格P81 0 方差分析: 又叫变量分析,它是用以检验两个或多个均数间差异的假设检验方法。 t 检验可以判断两组数据平均数间的差异显著性,而方差分析既可以判断两组又可以判断多组数据平均数之间的差异显著性。 对多个处理进行平均数差异显著性检验时,采用t检验法的缺点:1.检验过程烦琐。2.无统一的试验误差,误差估计的精确性和检验的灵敏性低。3.推断的可靠性低,检验时犯α错误概率大。 试验指标:为衡量试验结果的好坏和处理效应的高低,在实验中具体测定的性状或观测的项目称为试验指标。常用的试验指标有:身高、体重、日增重、酶活性、DNA含量等等。 试验因素:试验中所研究的影响试验指标的因素叫试验因素。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上因素对试验指标的影响时,则称为两因素或多因素试验。 试验指标:为衡量试验结果的好坏和处理效应的高低,在实验中具体测定的性状或观测的项目称为试验指标。常用的试验指标有:身高、体重、日增重、酶活性、DNA含量等等。 试验因素:试验中所研究的影响试验指标的因素叫试验因素。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上因素对试验指标的影响时,则称为两因素或多因素试验。 因素水平: 试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如研究3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平。 试验处理: 事先设计好的实施在实验单位上的具体项目就叫试验处理。如进行饲料的比较试验时,实施在试验单位上的具体项目就是具体饲喂哪一种饲料。 试验单位: 在实验中能接受不同试验处理的独立的试验载体叫试验单位。一只小白鼠,一条鱼,一定面积的小麦等都可以作为实验 LSD法应用的说明1. 进行LSD检验时,这一对平均数的比较是检验之前已经指定的,且经F检验证实平均数间的差异已达到显著之后,才可以进行LSD检验。2. LSD 法实质上是t 检验,但LSD 法是利用F 检验中的误差自由度dfe 查t 临界值,利用误差方差se2 计算平均数差异标准误,从一定程度上缓解了t检验过程中的三个弊病,但是LSD法仍然存在提高犯α错误的概率,所以进行LSD检验必须限制其应用范围。3. LSD 法适用于各处理组与对照组的比较,不适用于处理组间的比较。 因素(factor):也叫因子,是指对试验指标有影响,在研究中加以(控制)考虑的试验条件。 可控因子:在试验中可以人为地加以调控的因子浓度、温度等 非控因子:不能人为调控的因素(气象、环境等) 固定因素:指因素的水平是经过特意选择的 随机因素:指因素的水平是从该因素水平总体中随机抽出的样本 水平(level):每个因素的不同状态(从质或量方面分成不同的等级) 固定效应(fixed effect):由固定因素所引起的效应。 随机效应(random effect):由随机因素引起的效应。 二因素方差分析:是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。 主效应(main effect):各试验因素的相对独立作用 互作(interaction):某一因素在另一因素的不同水平上所产生的效应不同。 无重复观测值的二因素分组资料模式 正态性:试验误差应当是服从正态分布的独立的随机变量。因为方差分析只能估计随机误差,顺序排列或顺序取样资料不能作方差分析。应用方差分析的资料应服从正态分布,即每一观测值Xij应围绕相应的平均数呈正态分布。 可加性:处理效应与误差效应应该是可加的,并服从方差分析的数学模型 方差同质性:所有试验的误差方差应具备同质性,也叫方差的齐性 实验设计的目的:避免系统误差,控制、降低试验误差,无偏估计处理效应,从而对样本所在总体作出可靠、正确的推断。 生物学试验的基本要求1、试验目的明确2. 试验条件要有代表性3、试验结果可靠4、试验结果可重演 重演性:在相同的条件下,再进行试验或实践,应能重复获得与原试验结果相类似的结果。 处理(因素):对受试对象给予的某种外部干预(或措施) 试验误差:使观测值偏离试验处理真值的偶然影响称为试验误差或误差(error)。包括系统误差和随机误差使观测值偏离试验处理真值的偶然影响称为试验误差或误差(error)。可以避免 随机误差(偶然误差):由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差。不可避免 实验设计的基本原则:重复、随机、局部控制 重复:试验中同一处理实施在两个或两个以上的试验单位上。降低试验误差 随机化是指在对试验材料分组时必须使用随机的方法,使供试材料进入各试验组的机会是相等,以避免试验材料分组时试验人员主观倾向的影响。无偏的估计试验误差 局部控制是指在试验时采取一定的技术措施或方法来控制或降低非试验因素对试验结果的影响。无偏的估计试验误差 随机区组设计优点(1)设计简单,容易掌握(2)富于弹性,单因素、多因素及综合性的试验均可用(3)能提供无偏的误差估计(4)对试验区的形状要求不严 随机区组设计要求:处理数不能太多,一般10个左右。处理数太多,区组必然增大,局部控制的效率降低。处理数或处理组合数不能太少,如果较少,误差项的自由度也会太小,会降低假设检验的灵敏度。 单因素随机区组设计:把区组看做一个因素,和试验因素一起当做二因素试验,按照二因素无重复观测值的方差分析方法进行 裂区设计:是先将每一区按第一因素的处理数划分为小区,称为主区(整区),在主区里随机安排主处理。是多因素试验的一种形式 散点图可以看出:1、两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)2、两个变量间关系的类型(直线型或曲线型)3、是否有异常观测值的干扰 散点图:为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。 因果关系,用回归分析。一个变量的变化受另一个变量或几个变量的制约 平行关系,用相关分析。两个以上变量之间共同受到另外因素的影响 如果对x的每一个可能的值,都有随机变量y的一个分布相对应,则称随机变量y对变量x存在回归关系。 回归平方和U,U值大,说明回归效果好。 离回归平方和误差平方和,剩余平方和Q SSy=U+Q 直线回归应该注意的问题:1、作回归分析时要有实际意义。2、进行直线回归分析之前,绘制散点图。3、直线回归的适应范围一般以自变量的取值为限。4、观测值要尽可能多5、回归方程应该进行检验6、预测和外推要谨慎 应用直线相关应该注意的问题:1、直线相关分析时所涉及的变量要服从正态分布2、相关系数应该进行检验3、变量应该尽可能多4、要正确理解相关系数的含义,两个变量可能是因果关系,也可能是平行关系 相关与回归的联系:1、回归方程的显著性和回归系数b的显著性,相关系数r的显著性一致2、r:+,两变量间的相互关系是同向变化的。b:+,x增(减)一个单位,y平均值增(减)b个单位。3、回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料的b与其r的符号相同。 回归与相关的区别:1、回归:x是可以精确测量和严格控制的变量。y服从正态分布。相关:X 、Y均服从正态分布2、回归两变量为单向关系x→ y,相关,两变量间相关关系x←→y 3、回归系数有单位,形式为(应变量单位/自变量单位),相关系数没有单位。4、相关系数的范围在-1~+1之间,而回归系数没有这种限制。5、有些资料用相关表示较适宜,有些资料用相关和回归都适宜 注意问题:1、作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作相关或回归分析。2、对相关分析的作用要正确理解。3、对相关分析的作用要正确理解。一、一个变量X是选定的,另一个变Y是从正态分布的总体中随机抽取的。二、两变量X、Y(或X1、X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。3、在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。必须正确选定自变量与应变量。4、回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。 因篇幅问题不能全部显示,请点此查看更多更全内容