一、概念
1. 生物重复:生物学重复的对象为不同来源但同类的样品,如对照组A、B、C三只小鼠互为生物学重复,实验组中3只小鼠互为生物学重复。
2. 技术重复:指对同一样本进行重复地检测分析,例如同一份细胞中抽提的蛋白质进行三次质谱检测,或者对同一RNA-seq样本测序3次。与生物学重复相比,技术重复的测量变异程度较小,从而可以减少实验中的分析变异,将对同一份样本产生高重复性的测量结果 。
3. 重复试验:重复原则通常有三层含义,即重复取样、重复测量和重复实验,实验设计中所讲的重复原则指的是重复实验,即在相同的实验条件下,做两次或两次以上的独立实验。这里的独立是指要用不同的个体或样品做实验(生物重复),而不是在同一个体或样品上做多次实验(技术重复)。整个实验设计所包括的重复实验次数,称为样本大小或样本含量。有的地方也会说,重复试验还可以进一步细分为生物重复(biological replicates)和技术重复(technical replicates)。
4. 重复测量:是指对同一个人或是同一事物的某种属性进行的不同时间或空间的多次测量数据。严格上来说,重复测量并不局限于最后一步用仪器反复测量了几次,因为这样仅仅考虑到了仪器的可靠性。
5. 平行试验:平行试验就是同一批号取两个以上相同的样品,以完全一致的条件(包括温度、湿度、仪器、试剂,试验人,同一测量仪器,同一地点,相同的测量程序和短暂时间内重)进行试验,看其结果的一致性,两样品间的误差是有国标或其他标准要求的。复孔的设置其实就是平行试验的类型。
二、联系和区别
6. 设置复孔的目的是按照平行试验的要求,剔除个别异常值,消除偶然误差,正如很多我们用复孔的目的是为了剔除个别异常值、然后计算平均值。“平行”是1次实验,测出来只有1个值。因此就算你有1000个复孔,那么样本量n=1,而不是n=1000。生物重复,相当于从总体中进行抽样,用样本推断总体,目的是为了进行比较或统计分析。所以至少3个生物重复或3次重复试验才可以进行统计检验,而不是设置3个复孔就可以进行统计检验。
7. 重复试验更强调的是试验的独立性,从研究的过程上说,重复试验是自己和他人都能用同属性的样本(生物重复)按照你用的方法(技术重复),也能得到你的结果,简单上说就是结果可复制。
三、误区解读
8. 样本能代表总体的情况下,生物重复和重复试验是否可以通用?
生物重复和重复试验其实是有区别的,生物重复不一定是重复试验,而重复试验一定有生物重复。但很多地方会通用这2个概念。后来,我找到了一句话,To be convincing, a scientific paper needs to provide evidence that the results are reproducible. This evidence might come from repeating the whole experiment independently several times, or from performing the experiment in such a way that independent data are obtained and a formal procedure of statistical inference can be applied — usually confidence intervals (CIs) or statistical significance testing。这说明,做实验并不一定都得达到重复实验的要求,因为我们可以基于生物重复的差异推断总体的差异,而总体的差异理论上是不会因为你重复试验的次数而改变的(当然这是样本能代表总体、结果很稳定的条件下)。
其实仔细想想,很多试验都只是达到了生物重复的要求。比如吸烟对肺癌的影响,纳入的每个人都是生物重复,尽管每个纳入都是独立的,但研究的过程并没有体现重复试验;又比如KRAS突变对结直肠癌预后的影响,纳入的患者也是生物重复,但研究过程没有重复实验。这种例子实在太多了。因此,如果试验结果在生物重复中很稳定(比如每个癌组织的某个基因的表达量都比癌旁组织高),那实验达到生物学重复就可以,因为只要你基于生物重复证明了2组的差异,那说明你那2组代表的总体也是有差异的。就好比你用10只小鼠证明了某个基因在癌组织和癌旁组织中的表达是有差异的,那别人也可以利用另外的10只相同属性的小鼠证明这个基因也是有差异的,我想这也许就是重复试验特别强调生物重复的原因。所以,从统计的角度看,生物重复和重复试验的的概念似乎也没多大区别。
有些人投稿,动物实验,分成3个组,每组5只小鼠。文章写完后投稿,审稿意见返回后,傻眼了。因为审稿人说它只做了1次实验,没有体现实验的重复性原则,需要补试验。其实,审稿人提出这个问题只能说审稿人自己也不清楚试验只要达到生物重复就可以(结果稳定的情况下达到生物学重复就可以,详见后面)。那这个时候怎么办呢?用我上面那句英文回复吧,就告诉审稿人你的试验符合生物重复原则,结果稳定,基于生物重复推断出其所代表的总体是有差异的,而两总体的差异理论上是不会因为实验的次数而改变的。
9. 所有的试验都要进行重复试验吗?
对于大部分临床研究,因为都事先计算好了样本量,而且样本量比较大,所以样本一般都能够代表总体。对于这种研究,只要达到生物重复就可以拿去发表文章了。比如上面讲的吸烟对肺癌影响的研究,应该不会有人做2次重复试验吧。
对于结果稳定的研究,因为结果很稳定,这种研究达到生物学重复就可以了,尽管样本量很小。比如研究某抗药物是否可以治疗新冠肺炎,那只要3-5个患者,如果3-5个患者都能被这种药物治好,那就可以拿去发表文章了,不需要再用另外的3-5个新冠肺炎患者来重复试验。又比如某种化疗药物是否可以杀死结肠癌细胞,那只要用该药杀死3皿(同一批试验,不同的结肠癌细胞株)癌细胞就可以说明问题了。
对于样本不能代表总体的研究,因为结果可能不是很稳定,需要多次重复试验。样本能不能代表总体,可以用样本量、标准误或标准差作一定的参考,当然也要用从分布上看,比如正态性检验、方差齐性检验等。对于这种研究,如果生物重复试验结果尚可以,可以重复多次试验,因为这样既可以增加样本量,也可以减少试验的误差。当然,大部分细胞实验属于此种类型。
对于同一批试验没有生物重复的研究,必须进行重复试验(不同批次),以能反应总体情况。正如我前面说过,至少进行3个生物重复或3次重复试验才可以进行统计检验。如果你同一批试验不能体现生物重复,那你只能通过增加试验次数(至少3次),这样才能通过统计推断获得总体情况。
10. 什么是细胞实验中的生物学重复?CCK-8试验的复孔是生物学重复还是重复测量?
我举2个例子,来看看生物学重复和重复测量的区别。在用流式抗体检测细胞表面marker时,假如你想知道药物处理后对某细胞系表面marker表达的影响(总体是药物处理前后的marker的表达量),你就应该分成给药组和不给药2个组(同一皿细胞即可),每个组至少种3个复孔 (检测的是≥3份细胞,同一处理组的≥3个复孔染色互为生物重复),而不能把同一个处理孔的细胞分成3份分别进行染色 (仅检测了1份细胞,是重复测量)。又假如你只是想知道流式抗体染色时间对你所用某细胞下的实验有无影响,那就要把该细胞(同一皿细胞即可)分成多个处理组(不同染色时间进行分组),并保证每个处理下至少有3个复孔(生物重复),而不是把每个染色时间处理下的细胞分成3份分别进行染色(重复测量)。上述讲的2个例子,每个例子均说明了生物学重复和重复测量的区别。
那可能大家会问了,上述2个例子中的复孔怎么变成“生物学重复”了呢,这和我们传统的观念的不一样啊。是的,的确不一样,那为什么会这样呢?大家都知道组内的个体视为生物学重复,比如病例组中结肠癌患者互为生物学重复,实验组的5个小鼠互为生物学重复。那细胞实验的生物学重复是怎么样的呢?肺癌细胞株和结肠癌细胞株是生物学重复吗,3种结肠癌细胞株互为生物学重复吗,不同批次的结肠癌细胞株互为生物学重复吗?这么多疑问,可能懵逼了。那么我告诉你,站在细胞的角度看,肺癌细胞株和结肠癌细胞株是生物学重复(好比男人和女人也可以是生物学重复);站在结肠癌细胞的角度看,3种结肠癌细胞株互为生物学重复(好比40岁的男人和45岁的男人也可以是生物学重复);占在实验批次的角度看,不同批次的结肠癌细胞株也可以互为生物学重复(就好比今天的男人和明天的男人也可以是生物学重复)。也就是说,生物学重复的使用取决于的角度,也就是你的实验目的。
那什么才是最好的生物学重复呢?当然是根据研究目的设定的使组内差异最小的生物学重复 (好比都是男的,都是40岁的,同一个地区的,等)。而这体现在细胞上,那就是平行培养的同一种细胞或细胞株是最好的生物学重复(注:不是把培养好的细胞均分后当成生物学重复)。好,弄清楚这个之后,我们再回到上面的2个例子。2个例子都是提到用同一皿细胞进行分组,分组后也设置复孔,聪明的你是不是发现每个例子中所用的细胞是同一皿的(很诧异吧,同一皿的细胞怎么会是生物学重复呢?)。但事实上,这种相同只限定于分组开始时,也就是试验“开始之初”。豁然开朗的你是不是想到答案了?没错,虽然试验开始之初用的都是同一皿的细胞,但试验开始之后,同一皿来源的复孔细胞却开始了平行培养的征程,而在平行培养一段时间后,才开始了试验干预(加药或不加药)和结果测定(染色)。所以,同一皿的细胞,如果复孔设置是在平行培养之前,那么复孔就属于生物学重复;而复孔设置在平行培养后或结果测定时,那复孔就是重复测量;正如上面2个例子。仔细想想也是,平行培养的细胞虽然都是来自同一皿细胞,但经过平行培养后,发展了各自的生物学特性;就好比每对父母生的的小孩都有独特的个性,甚至是同一对父母生的孩子之间也各不相同。所以,对于同一皿细胞,分成多分后进行平行培养,就可以变成生物学重复;当然,对于独立培养的不同皿细胞,也是生物学重复。
以上复孔是生物学重复,我再举个复孔是重复测量的例子。比如用qPCR测定刺激因子(HH-CSF)是否诱导Bjm表达。我们可以在组织培养板的6个孔中都放上细胞(可以来自同一皿或不同的皿),然后用刺激因子(HH-CSF)来单独培养其中的三个,其余的三个用不添加HH-CSF的培养基来单独培养作为对照。从这六个培养物中我们可以得到mRNA,然后把每个样品分到6个孔中,用qPCR测定Bjm的RNA水平。在这个实验中,机器要阅读36个孔,但样本量n=3,因为这里有3个独立的对照培养还有3个独立的依赖HH-CSF的培养。我要强调的是,这里的复孔是在平行培养后(检测的时候)设置的,所以这里的复孔是重复测量。注意体会和上面的区别。
那CCK-8试验中的复孔是生物学重复还是重复测量呢?把某个细胞株分成2组(实验组和对照组),每组设置5个复孔(2组共10个孔);实验组加入药物,对照组不加药物。培养一段时间后用加入CCK-8,然后不同时间测定OD值。那实验组和对照组中的复孔是生物重复还是重复测量呢?结合上面的说的,如果复孔设置在平行培养之前,那么就是生物学重复。所以CCK-8试验中的复孔是生物学重复(是不是几乎所有的人都认为CCK-8里的复孔是重复测量),而不同时间的OD值测定是重复测量。再看另外一种设计,把实验组和对照组各培养一个孔的细胞,然后实验组加入药物,对照组不加药物;培养一段时间后每个组分成3个复孔,加入CCK-8,测定OD值。那这里的复孔就是重复测量了,测定的是同一分细胞的OD值。
可以用一句话来说明生物学重复和重复测量的本质区别,那就是生物学重复的样本一定要能反应你所得出的实验结论的总体情况,否则就是重复测量(比如重复测量同一皿细胞的marker、mRNA、OD)。
11. 做实验时,实验组和对照组细胞各3个复孔,重复3次,由于3次间批次差异较大,但趋势都一样,我就选择其中一次具有代表性的实验结果做统计?
对于计量资料,本人感觉这种处理方法大多时候是错误的,做实验不是跳远,不适合选择3次中跳的最远的1次作为结果。正如上面所述,就算你有1000个复孔,那么样本量n=1,而不是n=1000。设置复孔的目的是按照平行试验的要求,正如大多数时候我们用复孔的目的是为了计算平均值。前面我们说了,至少进行3个生物重复或3次重复试验才可以进行统计检验,而不是设置3个复孔就可以进行统计检验。这就如同通过多次测量同一个男人和女人的身高,是无法得出男性和女性身高差异的结论一样。如果我们要预测并推测整个人群,测量几个不同的男人和几个不同的女人是必要的,即我们需要说的生物学重复。
但对于有生物学重复的CCK-8试验,这样做是可以的。在CCK-8试验中,每个复孔是一个生物学重复,所以这3个复孔就可以进行统计检验了。但是,CCK-8中的复孔虽然是生物学重复,但还是会建议大家重复2-3次试验以增加样本量,因为很多时候,CCK-8试验结果不是很稳定。如果重复3次实验,趋势都是一样的,你大可以选择有代表性的一次实验进行统计。但如果趋势不一样,那建议将3次或更多次实验合并分析。
12. 重复试验到底应该用mean±sd还是mean±se ?
SD反映的是数据点围绕均值的分布状况,是数据报告中必须有的指标。SE则反映了均值波动的情况,是研究重复多次后,期望得到的差异程度。SE自身不传递很多有用的信息,主要功能是计算95%和99%的CI。CI是显著性检验的补充,反映的是真实的均值或者均值差别的范围。
不难发现,很多国外的人文章倾向于mean±se,而国内的人经常用mean±sd。除了和统计目的有关外,很大一部分原因是因为国内的人大都“选择1次有代表性的实验结果”进行统计。因为只利用了复孔的试验结果,发现sd很小,故用mean±sd来表示试验结果。事实上,对于重复试验,SD很可能会很大,正如David L Vaux指出,If the standard deviations are less than 10%, do the results come from replicates? 因此如果发现文章里的sd很小,就要怀疑作者是不是用复孔进行统计的可能,特别是qPCR的时候。
显然,用3次重复试验的数据时,为了表示重复试验的稳定性,应该用se表示(复孔算了1次平均值,重复试验算了1次平均值,即均值的均值的标准差;比如实验组设置了3个复孔,重复3次实验,那么结果是先计算每次实验复孔的平均值,再计算3次实验得到的3个均值的均值,此时应该用se表示“均值的均值的标准差”),不应该用sd。此外,样本量越大(重复次数越大),个体变异性越大,SD也变大(注:sd不一定随样本量的增大而增大,但很可能是变大的),从这一点看,sd也不适合重复试验的描述。相反,样本量越大,se越小,重复试验结果越能反应总体,所以对于独立重复试验用se描述更合适。于是有人会问了,重复3次实验,计算出来的标准误(SE)很大怎么办呢?事实上,如果SE很大,就说明测量值不稳定,说明重复抽样不能很好的代表总体,此时应该增加试验的重复次数(相当于增加样本量),实在不行就用非参数检验(其实好多文章都用t检验)。
当然,用sd表示也不能说错,只是表示的含义不同而已。如果我们想展示某一测量的数据分布范围,我们会选择sd。但如果我们想知道测量平均值的可信程度,我们应该用se来评价。在计算置信区间时,SE值是最常用的;在计算P值时也通常用se值。
13. 生物重复和重复试验的剂量资料应该如何统计分析?
上面我说过,进行3次生物重复或3次重复试验就可以进行统计检验。因此对于达到生物重复的试验,已经可以进行统计推断了,但为了减少偶然性,需额外再进行至少1次重复试验(总共2次就可以)。因为已经是生物重复,所以只要其中1次的实验结果就可以进行统计推断。此时,如果在2次重复试验的结果趋势一致,那么可以选择其中1次结果进行统计就可以了(类似于3次跳远,选择其中最好的1次)。也可以将2次实验的结果合并,但样本量为2次实验生物重复的总和。比如第一次实验得到的结果是A(1,2,2,1)、B(5,6,4,5),第二次得到的结果是A(2,3,2,1)、B(4,5,5,6),那么可以选择2次中的1次A、B进行分析,也可以将2个A合并、2个B合并后进行统计检验。个人感觉合并后分析更好,因为利用了所有的数据;有些人也觉得是分开好,因为减少了批次效应。
对于既没有达到生物重复,也没有达到重复试验目的的研究。比如qPCR实验组和对照组各设置3个复孔,试验重复3次。那么只能先将每次实验的每个组的复孔算出平均值,这样,实验组有3个平均值,对照组有3个平均值。如果比较两组的差异,应该用实验组的3个平均值和对照组的3个平均值进行比较,样本量等于试验重复的次数。
14. 重复3次的结果该怎么展示好呢?
理论上说,用mean±sd和mean±se表示的结果都应该是正态分布的,所以理论上说重复三次的结果既不能用mean±sd也不能mean±se。但也许有人会说了,我重复3次实验得出来的3个值满足正态分布,所以可以用。3个值满足正态分布,把审稿人和编辑当傻子?个人建议对于重复3次的实验结果用散点图展示。实际上,这已经是一种趋势,不少杂志开始鼓励直接用散点图表示。
好了不说了,如果上述理解有误,欢迎大家批评指正!
最后留下几篇文献供大家参考:PMID: 22421999; PMID: 27055650; PMID: 12154381;PMID: 11560067。
发表评论