首页 >>  正文

t分布的定义

来源:baiyundou.net   日期:2024-09-23



今天介绍的一篇来自Nature protocol的单细胞注释指南。这篇文章主要介绍如何解释单细胞数据,并识别细胞类型,状态和其他生物模式。通常采用三个步骤:自动细胞注释,手动细胞注释和注释验证。并分析了注释过程中常见的问题,以及应对策略。


研究背景

单细胞RNA测序(scRNA-seq)和单核RNA测序可用于测量单细胞转录组,并绘制各种组织和生物体中的新细胞类型、状态和动态。单细胞转录组学数据通常以二维“图谱”的形式呈现,基于细胞基因表达谱的相似性来组织细胞。以这种方式可视化的数据识别高度相似的细胞组(或“簇”)。因此必须对这些簇进行解释和注释,以定义细胞类型和状态,从而支持生物发现。

下图分析工作流程展示了如何从组织中创建单细胞转录组图谱。首先组织被分解成单细胞,并使用单细胞转录组技术进行分析。然后使用计算分析对结果进行质量控制过滤(例如,去除低质量细胞),量化每个细胞中每个映射基因的表达,使用聚类算法识别相似细胞组,并使用t分布随机邻域嵌入(t-SNE)或均匀流形近似和投影(UMAP)等技术在二维中可视化所有细胞,以产生未标记的“单细胞图”图像。

为了从生物学上解释这张图,就有必要确定哪些细胞类型或细胞状态由数据中观察到的簇或其他模式表示。本教程提供了图谱解释和标记过程的指南,从聚类数据到生成完全注释的单细胞图谱。在scRNA-seq数据中注释细胞的一般工作流程有三个主要步骤:自动注释、手动注释和验证。首先,自动注释使用预定义的一组“标记基因”(即在已知细胞类型中特异性表达的基因)或参考单细胞数据(现有的专业注释的单细胞图谱),通过将单个细胞或细胞簇的基因表达模式(特征)与已知细胞类型的基因表达方式(特征)相匹配来识别和标记它们。第二个主要步骤是手动注释,包括研究每个细胞簇或模式特有的基因和基因功能,以验证自动细胞注释并识别新的细胞类型。

步骤1:自动细胞注释

自动细胞注释是使用计算机算法和适当的生物学知识来标记细胞或细胞簇的有效方法。一般原理是识别单个细胞或细胞簇中与已知细胞类型或状态的特征基因表达特征相匹配的基因表达信号(模式或特征),然后为集群分配相应的标签。有两种主要的自动注释方法:

一种是对待注释样本中发现的每种细胞类型使用已知的标记基因(称为“基于标记的自动注释”)。在这种情况下,标记基因和细胞类型之间的已知关系是从数据库中获得的,例如SCSig、PanglaoDB和CellMarker,或者从文献中手动获得。然后,细胞或簇根据其特征表达的标记基因进行标记。

第二种方法是将待注释的单细胞RNAseq数据(“查询”数据集)与现有的、相似的、经过专业注释的scRNA-seq数据集进行比较,并将标签从参考细胞或簇转移到查询中足够相似的细胞或簇(称为“基于参考的自动注释”)。参考单细胞数据从基因表达综合(GEO)、单细胞表达图谱或细胞图谱项目获得。

然而,并不是所有的细胞都能容易地分组成簇,尤其是对于动态系统,如发育中的组织或含有基因表达梯度的组织。因此,自动细胞注释主要用于快速识别已知细胞类型并突显未知细胞类型以供进一步探索。

1.基于标记的自动注释

基于标记的自动化注释基于已知标记基因的特征表达来标记细胞或细胞簇。为了标记单个细胞,最可靠的基于标记的注释工具之一是半监督类别识别和分配(SCINA)。SCINA假设每个标记遵循双峰基因表达分布,其中一个峰对应于相关细胞类型的细胞,而另一个峰包含实验中的其余细胞。假设特定类型的细胞在该分布的上部具有该细胞类型的所有标记物的表达,因此要求作为SCINA的输入提供的标记物仅对一种细胞类型特异。

基于参考的自动注释

基于参考的细胞注释基于“guilt by association”的概念,从而将参考数据中的细胞或簇标签转移到查询数据中具有相似基因表达谱的未标记细胞或簇。因此,只有当高质量和相关的注释参考单细胞数据可用时,这种方法才是可能的。

图1.自动注释结果取决于所使用的标记基因。

步骤2:专家手动注释

尽管自动注释方法方便且系统,但它们需要适当的参考数据库,并且并不总是高置信度注释。当这些方法导致置信度较低、细胞标签冲突或缺失时,需要专家手动注释。如果一个已知细胞类型的许多标记基因在集群中的细胞中高度表达,这通常足以支持它被标记为该细胞类型。此外,当没有任何单一的可区分的基因表达标记时,必须将多个基因一起用于区分数据中的细胞类型与其他细胞类型。细胞定义基因主要来源是相关生物体、器官和疾病背景的单细胞图谱。鉴于蛋白质表达可能与mRNA表达相关,可以从组织内染色模式的已发表证据(即使用免疫组织化学或免疫荧光)、流式细胞术和蛋白质印迹中收集蛋白质表达标记物并将其用作潜在的基因表达标记物。

一旦来自已知标记物的细胞类型信息耗尽,就必须逐簇手动检查未经自信注释的细胞。通过计算集群和所有其他细胞之间的差异表达来识别潜在的新标记(图2)。注释细胞状态和梯度在分析和表征新的细胞类型时,重要的是确定它们是代表稳定的细胞类型还是包含多个细胞状态。细胞类型和状态的定义尚未标准化,但稳定的细胞类型可以预期在整个簇中具有均匀的基因表达,而细胞梯度表现为细胞和细胞状态(例如,细胞周期状态)(图2)。表达梯度表示细胞群体中存在的连续差异,这可能代表细胞周期、免疫激活、空间模式或短暂发育阶段等状态。

一些细胞可能很难注释,包括新的细胞类型,这些细胞类型可以根据它们表达的基因的功能进行描述。此外,可能特别难以区分相同总体类型的组织驻留细胞(例如,组织驻留巨噬细胞)和非组织常驻细胞(例如在血液中循环的单核细胞)。鉴定组织驻留细胞的一种方法是修改实验设计,以通过灌注步骤从所述组织中去除过客细胞。然而,通过冲洗去除的细胞的数量和类型将取决于特定的组织和方案。


图2.如何识别和可视化细胞类型梯度。


第三步:注释验证

上述工具和方法可以为scRNA-seq数据提供可靠的细胞类型标记。由于信使核糖核酸测量仅部分定义了细胞类型和功能,因此必须通过实验验证有关新型细胞类型的重要结论。


标题:Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods

译名:教程:使用自动和手动方法注释单细胞转录组图的指南

期刊:NATURE PROTOCOLS

影响因子:14.8

发表时间:2021.5.24

作者:多伦多大学


","gnid":"90820823379c09594","img_data":[{"flag":2,"img":[{"desc":"","height":"371","title":"","url":"https://p0.ssl.img.360kuai.com/t01e7bcf0c0a4b80e51.png","width":"848"},{"desc":"","height":511,"title":"","url":"https://p0.ssl.img.360kuai.com/t01805b857120fdcf98.jpg","width":868},{"desc":"","height":548,"title":"","url":"https://p0.ssl.img.360kuai.com/t01df4702f41001ed2a.jpg","width":873}]}],"original":0,"pat":"art_src_0,fts0,sts0","powerby":"pika","pub_time":1706511037000,"pure":"","rawurl":"http://zm.news.so.com/9eecaf24fb4d57b422d6e556a2dc759d","redirect":0,"rptid":"680935d10a2364cd","rss_ext":[],"s":"t","src":"集思慧远医学","tag":[{"clk":"kscience_1:细胞","k":"细胞","u":""}],"title":"Nature protocol | 单细胞转录组自动和手动注释教程

郗艳饲2555t分布为什么叫学生氏分布 -
师尤肥17795181096 ______ 学生t-分布 在概率论和统计学中,学生t-分布(Student's t-distribution),可简称为t分布.应用在估计呈正态分布的母群体之平均数.它是对两个样本均值差异进行显著性测试的学生t检定的基础.学生t检定改进了Z检定(Z-test),因为Z检定以...

郗艳饲2555t分布是什么,还有,卡方分布,F分布,这都是概率论里面的 -
师尤肥17795181096 ______ 卡方分布 t分布 F分布 是三大抽样分布 可称为统计量的分布 这属于数理统计的部分 不属于概率论 一两句话讲不清 建议你看书或者听课学习

郗艳饲2555什么是t分布?医学统计学的独立检验跟配对检验有啥区别? -
师尤肥17795181096 ______ t分布是正态分布.比较复杂,不便仔细证明给你看. 配对t检验:在实验中,把研究对象按某些特征或条件配成对子,一般有同源配对,自身比较等.这时所得两个样本,并不要求相互独立.这样比较有利于减少其它因素影响,更好地揭露本质.对于配对设计条件下,欲检验两种处理在效应上有否显著性差异. 我们先假设两种处理(或对照与处理)并无差异,差别仅仅是由于抽样误差所致,因此可认为两种处理的差数d服从正态分布且总体均数应等于0即Ho:Ud=0然后再将观察所得的均数与Ud相比,看差别是否有显著意义.这样就把所获得的两个样本的分析转化为对一个样本进行t检验.我们称之为配对比较的t检验.

郗艳饲2555与牛顿环有关的1、薄膜干涉的特点和性质2、学生分布即T分布的具体内容3、A类B类不确定度的具体内容 -
师尤肥17795181096 ______[答案] 1.薄膜的上下表面都能反射光,两个两个表面的反射光有光程差,当薄膜足够薄使得光程差与波长同数量级,两反射光的干... T分布构型与正态类似,当样本很大时,T分布就可以与正态等同.t分布函数我目前还不知道,一般是查表算数据 3. A类不确定...

郗艳饲2555t分布的特征 -
师尤肥17795181096 ______ 1.以0为中心,左右对称的单峰分布; 2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关.自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线,如图. t(n)分布与标准正态N(0,1)的密度...

郗艳饲2555关于F分布、t分布 能跟我讲讲吗?如题! -
师尤肥17795181096 ______[答案] 其实没什么好讲的,我就当帮自己复习了:)一切的基础是标准正态分布,注意是标准的.标准正态分布的N个平方和服从自... 就是F(M,N)分布,两个参数分别是分子和分母的卡方分布的自由度.T分布的平方,就是分子自由度为1的F分布,所以可以看...

郗艳饲2555θ统计是什么意思 -
师尤肥17795181096 ______ 样本的已知函数;其作用是把样本中有关总体的信息汇集起来;是数理统计学中一个重要的基本概念.统计量依赖且只依赖于样本x1,x2,…xn;它不含总体分布的任何未知参数.从样本推断总体(见统计推断)通常是通过统计量进行的.例如x1,x...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024