(12)发明专利申请
(10)申请公布号 CN 111524545 A(43)申请公布日 2020.08.11
(21)申请号 202010366270.X(22)申请日 2020.04.30
(71)申请人 天津诺禾致源生物信息科技有限公
司
地址 301700 天津市武清区创业总部基地
B07(72)发明人 喻宇烨 梁齐齐
(74)专利代理机构 北京康信知识产权代理有限
责任公司 11240
代理人 路秀丽(51)Int.Cl.
G16B 5/00(2019.01)G16B 10/00(2019.01)G16B 30/10(2019.01)G16B 40/00(2019.01)
权利要求书3页 说明书10页 附图14页
(54)发明名称
全基因组选择育种的方法和装置
(57)摘要
本发明提供了一种全基因组选择育种的方法和装置。该方法包括:获取训练群体中与目标表型显著关联的标记;根据训练群体及标记,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值;按照基因组估计育种值从高到低的顺序,选择在多个全基因组选择预测模型中均排在前预定数量的个体作为育种材料。综合多个模型进行基因组估计育种值计算,并利用多个模型结果共定位,并选择出在所有的模型中都具有高育种值的个体作为育种材料,大大提高结果的精确性。该方法能适应大部分的材料背景,填补了在超级计算机中基因组选择分析上的空白,提高育种选择的效应,促进育种的进展。
CN 111524545 ACN 111524545 A
权 利 要 求 书
1/3页
1.一种全基因组选择育种的方法,其特征在于,所述方法包括:获取训练群体中与目标表型显著关联的标记;根据所述训练群体及所述标记,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值;
按照所述基因组估计育种值从高到低的顺序,选择在多个所述全基因组选择预测模型中均排在前预定数量的个体作为育种材料。
2.根据权利要求1所述的方法,其特征在于,多种所述全基因组选择预测模型包括:基因组最佳线性无偏预测模型、岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少4种。
3.根据权利要求2所述的方法,其特征在于,多种所述全基因组选择预测模型包括岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少3种时,利用多种所述全基因组选择预测模型计算所述育种群体中每个个体的基因组估计育种值包括:
利用所述训练群体中的所述目标表型与所述标记之间的显著关联性,对多种所述全基因组选择预测模型进行精确度评估,得到满足精确度要求的一个或多个全基因组选择预测模型;
利用所述满足所述精确度要求的一个或多个全基因组选择预测模型,计算得到各所述标记的效应值;
利用各所述标记的效应值计算得到所述育种群体中每个个体的基因组估计育种值。4.根据权利要求1至3中任一项所述的方法,其特征在于,获取训练群体中与目标表型显著关联的标记包括:
对所述训练群体来源于基因芯片或基因组重测序的测序数据进行全基因组关联分析,从而获得与所述目标表型显著关联的标记。
5.根据权利要求4所述的方法,其特征在于,从所述测序数据进行所述全基因组关联分析从而获得与所述目标表型显著关联的标记包括:
对测序数据进行综合分析,所述综合分析表型分布分析、群体结构分析、连锁不平衡分析以及亲缘关系分析;
根据所述综合分析的结果进行所述全基因组关联分析,从而获得与所述目标表型显著关联的标记。
6.根据权利要求5所述的方法,其特征在于,对测序数据进行综合分析,并根据所述综合分析的结果进行所述全基因组关联分析,从而获得与所述目标表型显著关联的标记包括:
检测所述测序数据中数量性状的表型是否符合正态分布或者偏态分布,并剔除偏离杠杆值的极端表型;
通过主成分分析或者群体结构分析计算所述训练群体中群体结构,并将所述群体结构作为固定效应加入全基因组关联分析模型中;
通过衰减距离对全基因组的标记进行连锁不平衡过滤,去除存在多重共线性的效应的标记;
通过计算所述训练群体中各个体间的亲缘距离,并将所述亲缘距离作为随机效应加入
2
CN 111524545 A
权 利 要 求 书
2/3页
所述全基因组关联分析模型;
利用所述全基因组关联分析模型计算所述数量性状的表型中与所述全基因组的标记之间的关联性,从而选择得到与所述目标表型存在显著关联的标记;
优选地,所述全基因组关联分析模型为混合线性模型。7.一种全基因组选择育种的装置,其特征在于,所述装置包括:获取模块,用于获取训练群体中与目标表型显著关联的标记;育种值估计模块,用于根据所述训练群体及所述标记,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值;
选择模块,用于按照所述基因组估计育种值从高到低的顺序,选择在多个所述全基因组选择预测模型中均排在前预定数量的个体作为育种材料。
8.根据权利要求7所述的装置,其特征在于,多种所述全基因组选择预测模型包括:基因组最佳线性无偏预测模型、岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少4种。
9.根据权利要求8所述的装置,其特征在于,多种所述全基因组选择预测模型包括岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少3种时,所述育种值估计模块包括:
模型精确度评估模块,用于利用所述训练群体中的所述目标表型与所述标记之间的显著关联性,对多种所述全基因组选择预测模型进行精确度评估,得到满足精确度要求的一个或多个全基因组选择预测模型;
效应值计算模块,用于利用所述满足所述精确度要求的一个或多个全基因组选择预测模型,计算得到各所述标记的效应值;
育种值估计子模块,用于利用各所述标记的效应值计算得到所述育种群体中每个个体的基因组估计育种值。
10.根据权利要求7至9中任一项所述的装置,其特征在于,获取模块包括:全基因组关联分析模块,用于对所述训练群体来源于基因芯片或基因组重测序的测序数据进行全基因组关联分析,从而获得与所述目标表型显著关联的标记。
11.根据权利要求10所述的装置,其特征在于,所述全基因组关联分析模块包括:综合分析模块,用于对测序数据进行综合分析,所述综合分析表型分布分析、群体结构分析、连锁不平衡分析以及亲缘关系分析;
全基因组关联分析子模块,用于根据所述综合分析的结果进行所述全基因组关联分析,从而获得与所述目标表型显著关联的标记。
12.根据权利要求11所述的装置,其特征在于,所述全基因组关联分析模块包括:表型分布分析模块,用于检测所述测序数据中数量性状的表型是否符合正态分布或者偏态分布,并剔除偏离杠杆值的极端表型;
群体结构分析模块,用于通过主成分分析或者群体结构分析计算所述训练群体中群体结构,并将所述群体结构作为固定效应加入所述全基因组关联分析子模块中;
连锁不平衡分析模块,用于通过衰减距离对全基因组的标记进行连锁不平衡过滤,去除存在多重共线性的效应的标记;
亲缘关系分析模块,用于通过计算所述训练群体中各个体间的亲缘距离,并将所述亲
3
CN 111524545 A
权 利 要 求 书
3/3页
缘距离作为随机效应加入所述全基因组关联分析子模块;
所述全基因组关联分析子模块,用于计算所述数量性状的表型中与所述全基因组的标记之间的关联性,从而选择得到与所述目标表型存在显著关联的标记;
优选地,所述全基因组关联分析分析子模块为混合线性模块。13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的方法。
14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的方法。
4
CN 111524545 A
说 明 书
全基因组选择育种的方法和装置
1/10页
技术领域
[0001]本发明涉及分子育种领域,具体而言,涉及一种全基因组选择育种的方法和装置。背景技术
[0002]在选择育种历史中,经历了从经验育种到育种理论和方法的探索,有选择学说,纯系学说,回交育种、轮回育种、诱变育种、单粒传、理想株型;再到标记辅助选择育种,探索了各种各样的标记,比如扩增片段长度多态性标记辅助选择(AFLP)、微卫星标记辅助选择(SSR)和单核苷酸多态性标记辅助选择(SNP)。随着测序技术的发展,测序的通量越来越高,成本越来越低,加之计算机运算能力不断提升,这为全新育种技术的发展创造了技术条件,兴起了基因组选择(Genomic Selection,GS)育种浪潮。[0003]基因组选择育种能有效的解决难测量性状、运气成分大,耗时长、技术难度高等因素的,加快育种的步伐。基因组选择育种是利用覆盖全基因组的高密度分子遗传标记进行的标记辅助选择的一种育种方式。
[0004]目前比较出名的基因组选择(GS)分析功能软件是ipat软件,Ipat软件界面比较友好,但是ipat只有三种GS模型,分别为基因组最佳线性无偏估计(GBLUP)、岭回归最佳线性无偏估计(RRBLUP)、贝叶斯岭回归(BRR)。[0005]然而,对于有快速育种需求的公司来说,现有的基因组选择分析的效率低,分析结果的准确性也相对较低,无法满足需求。发明内容
[0006]本发明的主要目的在于提供一种全基因组选择育种的方法和装置,以解决现有技术中的分析结果准确性低的问题。[0007]为了实现上述目的,根据本发明的一个方面,提供了一种全基因组选择育种的方法,该方法包括:获取训练群体中与目标表型显著关联的标记;根据训练群体及标记,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值;按照基因组估计育种值从高到低的顺序,选择在多个全基因组选择预测模型中均排在前预定数量的个体作为育种材料。
[0008]进一步地,多种全基因组选择预测模型包括:基因组最佳线性无偏预测模型、岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少4种。[0009]进一步地,多种全基因组选择预测模型包括岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少3种时,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值包括:利用训练群体中的目标表型与标记之间的显著关联性,对多种全基因组选择预测模型进行精确度评估,得到满足精确度要求的一个或多个全基因组选择预测模型;利用满足精确度要求的一个或多个全基因组选择预测模型,计算得到各标记的效应值;利用各标记的效应
5
CN 111524545 A
说 明 书
2/10页
值计算得到育种群体中每个个体的基因组估计育种值。[0010]进一步地,获取训练群体中与目标表型显著关联的标记包括:对训练群体来源于基因芯片或基因组重测序的测序数据进行全基因组关联分析,从而获得与目标表型显著关联的标记。
[0011]进一步地,从测序数据进行全基因组关联分析从而获得与目标表型显著关联的标记包括:对测序数据进行综合分析,综合分析表型分布分析、群体结构分析、连锁不平衡分析以及亲缘关系分析;根据综合分析的结果进行全基因组关联分析,从而获得与目标表型显著关联的标记。[0012]进一步地,对测序数据进行综合分析,并根据综合分析的结果进行全基因组关联分析,从而获得与目标表型显著关联的标记包括:检测测序数据中数量性状的表型是否符合正态分布或者偏态分布,并剔除偏离杠杆值的极端表型;通过主成分分析或者群体结构分析计算训练群体中群体结构,并将群体结构作为固定效应加入全基因组关联分析模型中;通过衰减距离对全基因组的标记进行连锁不平衡过滤,去除存在多重共线性的效应的标记;通过计算训练群体中各个体间的亲缘距离,并将亲缘距离作为随机效应加入全基因组关联分析模型;利用全基因组关联分析模型计算数量性状的表型中与全基因组的标记之间的关联性,从而选择得到与目标表型存在显著关联的标记;优选地,全基因组关联分析模型为混合线性模型。
[0013]为了实现上述目的,根据本发明的一个方面,提供了一种全基因组选择育种的装置,该装置包括:获取模块、育种值估计模块及选择模块,获取模块用于获取训练群体中与目标表型显著关联的标记;育种值估计模块用于根据训练群体及标记,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值;选择模块用于按照基因组估计育种值从高到低的顺序,选择在多个全基因组选择预测模型中均排在前预定数量的个体作为育种材料。
[0014]进一步地,多种全基因组选择预测模型包括:基因组最佳线性无偏预测模型、岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少4种。[0015]进一步地,多种全基因组选择预测模型包括岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少3种时,育种值估计模块包括:模型精确度评估模块,用于利用训练群体中的目标表型与标记之间的显著关联性,对多种全基因组选择预测模型进行精确度评估,得到满足精确度要求的一个或多个全基因组选择预测模型;效应值计算模块,用于利用满足精确度要求的一个或多个全基因组选择预测模型,计算得到各标记的效应值;育种值估计子模块,用于利用各标记的效应值计算得到育种群体中每个个体的基因组估计育种值。[0016]进一步地,获取模块包括:全基因组关联分析模块,用于对训练群体来源于基因芯片或基因组重测序的测序数据进行全基因组关联分析,从而获得与目标表型显著关联的标记。
[0017]进一步地,全基因组关联分析模块包括:综合分析模块,用于对测序数据进行综合分析,综合分析表型分布分析、群体结构分析、连锁不平衡分析以及亲缘关系分析;全基因组关联分析子模块,用于根据综合分析的结果进行全基因组关联分析,从而获得与目标表
6
CN 111524545 A
说 明 书
3/10页
型显著关联的标记。[0018]进一步地,全基因组关联分析模块包括:表型分布分析模块,用于检测测序数据中数量性状的表型是否符合正态分布或者偏态分布,并剔除偏离杠杆值的极端表型;群体结构分析模块,用于通过主成分分析或者群体结构分析计算训练群体中群体结构,并将群体结构作为固定效应加入全基因组关联分析子模块中;连锁不平衡分析模块,用于通过衰减距离对全基因组的标记进行连锁不平衡过滤,去除存在多重共线性的效应的标记;亲缘关系分析模块,用于通过计算训练群体中各个体间的亲缘距离,并将亲缘距离作为随机效应加入全基因组关联分析子模块;全基因组关联分析子模块,用于计算数量性状的表型中与全基因组的标记之间的关联性,从而选择得到与目标表型存在显著关联的标记;优选地,全基因组关联分析分析子模块为混合线性模块。[0019]为了实现上述目的,根据本发明的一个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种全基因组选择育种的方法。
[0020]为了实现上述目的,根据本发明的一个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行任一种全基因组选择育种的方法。[0021]应用本发明的技术方案,本发明综合多个模型进行基因组估计育种值计算,并利用多个模型结果共定位,并选择出在所有的模型中都具有高育种值的个体作为育种材料,大大提高结果的精确性。此外,本申请的方法可以从多种模型中寻找出最佳模型预测最佳育种材料,从而提高了基因组选择育种结果的准确性。本发明的方法能适应大部分的材料背景,填补了在超级计算机中基因组选择分析上的空白,提高育种选择的效应,促进育种的进展。
附图说明
[0022]构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0023]图1示出了根据本发明的优选的实施例1提供的一种全基因组选择育种的方法的流程示意图;
[0024]图2示出了根据本发明的优选的实施例2提供的一种全基因组选择育种的方法的详细流程示意图;
[0025]图3A至图3H6示出了根据本发明的优选的实施例3提供的一种全基因组选择育种的方法的详细流程中每一步骤的结果示意图;其中,图3A示出了表型特征分析步骤的结果,图3B示出了群体结构分析步骤的结果,图3C示出了连锁不平衡分析步骤的结果,图3D示出了亲缘关系分析步骤的结果,图3E示出了全基因组关联分析步骤的结果,图3F示出了模型评估与选择步骤的结果,图3G1至3G6示出了6个二步法模型的标记效应分析步骤的结果,图3H1至3H6示出了6个二步法模型的基因组估计育种值分析步骤的结果;
[0026]图4A至图4D示出了本发明实施例4提供的一种全基因组选择育种分析结果图,其中,4A示出了模型预测精确度结果中众数最高的值为BB模型,图4B示出的是rrBLUP模型计算得到的标记效应值结果,图4C示出的是rrBLUP模型计算得到的基因组估计育种值结果,图4D示出的是7个预测模型相互结合选择育种的数量纬恩图;
7
CN 111524545 A[0027]
说 明 书
4/10页
图5示出了本发明实施例4提供的一种全基因组选择育种装置的结构示意图。
具体实施方式
[0028]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。[0029]术语解释:
[0030]全基因组选择(Genomic selection,GS)育种:即估计全基因组上所有标记或单倍型的效应,从而得到基因组估计育种值。与传统的标记辅助选择的最大区别在于,全基因组选择不仅仅依赖于一组显著的标记,而是联合分析群体中的所有标记,以进行个体育种值的预测。与传统的标记辅助选择相比,全基因组选择有两大突破,一是基因组定位的双亲群体可以直接应用与育种,而是更适合用于改良效应较小的多基因控制的数量性状。[0031]基因组估计育种值(Genomic Estimated Breeding Value,GEBV),通过检测覆盖全基因组的标记,利用基因组水平的遗传信息对个体进行遗传评估,以获得更高的育种值估计准确性。对早期难以度量的性状进行选择,缩短世代间隔,加速育种进程,从而节约大量的育种成本。
[0032]如背景技术所提到的,现有的基因组选择育种方法仍存在预测结果准确性低的缺陷,为了进一步提高预测的准确性,本申请对现有的全基因组选择育种的方法进行了改进。[0033]实施例1
[0034]本实施例提供了一种全基因组选择育种的方法,如图1所示,该方法包括:[0035]步骤S101,获取训练群体中与目标表型显著关联的标记;[0036]步骤S102,根据训练群体及标记,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值;[0037]步骤S103,按照基因组估计育种值从高到低的顺序,选择在多个全基因组选择预测模型中均排在前预定数量的个体作为育种材料。[0038]上述全基因组选择育种的方法,通过综合多个预测模型对育种群体进行基因组估计育种值计算,然后利用多个模型的计算结果对具有高育种值的个体材料进行共定位,即选择出在所有的预测模型的计算结果中都具有高育种值的个体作为育种材料,大大提高结果的精确性。而且,本申请的上述方法还可以从多种预测模型中寻找出最佳模型预测最佳育种材料,从而提高了基因组选择育种结果的准确性。该方法能适应大部分的材料背景,填补了在超级计算机中基因组选择(GS)分析上的空白,有助于提高育种选择的效应,促进育种的进展。
[0039]上述选择排在前预定数量的个体作为育种材料,具体的数量根据物种类别的不同和选择的群体数量大小的不同,有所不同,在某些情况下,可以按数量占比进行选择,比如前3%、5%、8%或10%的个体。
[0040]上述多种全基因组选择预测模型可以在现有的三种模型(即基因组最佳线性无偏估计(GBLUP)、岭回归最佳线性无偏估计(RRBLUP)、贝叶斯岭回归(BRR))基础上根据需要进行添加。在本申请中包括但不仅限于:基因组最佳线性无偏预测模型、岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型。优选多种模型至少包括上述4种,更优选5种、6种或7种。在某些情况下,根据不同物种及
8
CN 111524545 A
说 明 书
5/10页
不同形状所构建的新的预测模型,同样可以纳入上述多种预测模型中。[0041]需要说明的是,本申请中的标记使用的是基因组上的SNP标记,但标记类型既可以是WGS测序的SNP标记、INDEL标记,也可以用GBS测序、RAD测序和芯片数据的SNP标记。[0042]上述多种全基因组选择预测模型中,岭回归最佳线型无偏估计(ridge regression best linear unbiased prediction,RRBLUP)和基因组最佳线性无偏预测(Genomic best linear unbiased prediction,GBLIP)属于惩罚方法范畴。贝叶斯套索算法(Bayesian Lasso,BL)、贝叶斯A(Bayesian A,BA)、贝叶斯B(Bayesian B,BB)、贝叶斯C(Bayesian C,BC)、贝叶斯岭回归(Bayesian ridge regression,BRR),这5个模型属于贝叶斯方法范畴。其中基因组最佳线性无偏预测(GBLUP)为一步法,其他6个模型是二步法。一步法指一步得到基因组估计育种值(GEBV),不存在单核苷酸多态性(SNP)标记效应值。而二步法基于SNP标记效应值矩阵与遗传矩阵的得到的基因组估计育种值(GEBV),从而获得基因组上的区域对基因组估计育种值(GEBV)贡献排名。[0043]因此,多种全基因组选择预测模型包括岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型联合选择育种,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值包括:利用训练群体中的目标表型与标记之间的显著关联性,对多种全基因组选择预测模型进行精确度评估,得到满足精确度要求的一个或多个全基因组选择预测模型;利用模型精确度结果选择一个或多个全基因组选择预测模型,计算得到各标记的效应值;利用各标记的效应值计算得到育种群体中每个个体的基因组估计育种值。[0044]上述6种模型,利用筛选出的具有统计学意义的标记的时,利用这些训练群体中的这些显著关联的标记与表型之间的关系,评估每种预测模型与基因组估计育种值预测的精确性,从而来判断相应模型是否适合该训练群体。根据不同研究项目和研究目的的差异,此处评估的标准或要求,可以根据实际需要进行合理设定。对于通过了精确度评估的模型,则可以用来对育种群体的基因组估计育种值进行计算。[0045]具体的对各预测模型的精确度评估的方法,通常采用交叉验证法。即将训练群体分成两部分,一部分作为训练集群体(比如70%、75%或80%),一部分作为测试集群体(比如30%、25%或20%),利用训练集群体用于构建上述各模型,测试集群体用于测试构建的相应预测模型是否准确,从而对后续用于基因组估计育种值计算进行了筛选,保证所用模型具有相对较高的精确度,其中训练集群体与测试集群体的比例根据项目情况、物种类型、样本数量而定。
[0046]上述与目标表型显著关联的标记的具体来源,可以来源系谱群体背景或者来源于全基因组关联分析(Genomic wide association analysis,GWAS)得到具有统计学意义的标记。只要将待用的标记相关数据转换成各预测模型所能接受和处理的数据格式即可。[0047]在本申请中,着重介绍通过全基因组关联分析筛选得到的具有统计学意义的标记的方法。在一种优选的实施例中,获取训练群体中与目标表型显著关联的标记包括:对训练群体来源于基因芯片或基因组重测序的测序数据进行全基因组关联分析,从而获得与目标表型显著关联的标记。
[0048]在进行全基因组关联分析时,为了更准确地筛选得到具有统计学意义的与目标性状高度关联的标记,要综合考虑不同物种的训练群体表型分布及群体结构特征等的不同,
9
CN 111524545 A
说 明 书
6/10页
以及标记之间的连锁不平衡关系等众多因素对统计结果的影响。在一种优选的实施例中,从测序数据进行全基因组关联分析从而获得与目标表型显著关联的标记包括:对测序数据进行综合分析,综合分析表型分布分析、群体结构分析、连锁不平衡分析以及亲缘关系分析;根据综合分析的结果进行全基因组关联分析,从而获得与目标表型显著关联的标记。具体的分析根据具体物种的不同,具体目标性状的不同进行合理设置筛选条件和考虑因素。[0049]在一种更优选的实施例中,对测序数据进行综合分析,并根据综合分析的结果进行全基因组关联分析,从而获得与目标表型显著关联的标记包括:检测测序数据中数量性状的表型是否符合正态分布或者偏态分布,并剔除偏离杠杆值的极端表型;通过主成分分析或者群体结构分析计算训练群体中群体结构,并将群体结构作为固定效应加入全基因组关联分析模型中;通过衰减距离对全基因组的标记进行连锁不平衡过滤,去除存在多重共线性的效应的标记;通过计算训练群体中各个体间的亲缘距离,并将亲缘距离作为随机效应加入全基因组关联分析模型;利用全基因组关联分析模型计算数量性状的表型中与全基因组的标记之间的关联性,从而选择得到与目标表型存在显著关联的标记。[0050]上述优选的实施例中,通过表型特征分析及时剔除偏离杠杆值的极端表型,以免影响后续关联分析的结果。而对群体结构进行分析,便于考虑对群体结构相同的另一群体的育种进行估计时的准确性,而群体结构差别越小,模型计算得到的基因组估计育种值准确性就越高。而通过主成分分析(PCA)或者群体结构分析(Structure)判定训练群体有几个群体结构,将其计算的结果作为固定效应加入全基因组关联分析(GWAS)的模型中,则在分析时便考虑了该因素对关联结果的影响。判定几个类群体以及大群体的衰减距离,通过衰减距离对高密度标记经过连锁不平衡(LD)过滤,以防SNP之间的强连锁不平衡(LD)引发的多重共线性的效应导致全基因组关联分析(GWAS)模型拟合度下降。通过计算训练群体个体间的亲缘距离,将其作为随机效应加入全基因组关联分析(GWAS)模型中,从而便于提高分析时的准确性。
[0051]而全基因组关联分析筛选得到的具有统计学意义的标记的方法也有很多种,具体可以根据实际需要进行合理选择。本申请中优选采用混合线性模型来计算表型与标记之间的相关性,并保留显著相关的标记作为目标表型的标记。[0052]实施例2
[0053]本实施例提供了一种针对全基因组关联分析(GWAS)得到的结果开发出基因组选择育种方法,其详细步骤如下:[0054]需要准备的数据,分别为训练群体(TP)的表型、TP的基因型(即标记的基因型)数据、TP的GWAS结果数据、基因组选择(GS)预测模型、育种群体(BP)的基因型数据。其中,全基因组关联分析(GWAS)的结果文件仅仅需要3行,分别为染色体编号、单核苷酸多态性(SNP)的物理位置、单核苷酸多态性(SNP)的P-value(即与目标表型具有显著相关性的p值)。[0055]图2示出了本实施例的基因组选择育种方法的详细流程,其中需要两个群体,训练群体和育种群体。训练群体通过全基因组关联分析(GWAS)分析后,提取有统计学意义的基因型;然后将训练群体分析训练集群体和测试集群体,预测最佳模型,选出最佳模型;通过最佳模型计算所有标记的遗传效应值,利用这些效应值估计基因组育种值。[0056]对于选择出最佳预测模型,并根据最佳预测模型计算所有标记的遗传效应值,然后再去计算基因组估计育种值,是针对某些实施例,在经过对多种预测模型进行评估后,仅
10
CN 111524545 A
说 明 书
7/10页
有一种最佳的预测模型的情况,或者是经比较后,该最佳预测模型的预测精确度能够涵盖其他模型预测的结果,则以该最佳预测模型进行计算基因组估计育种值。[0057]在另一些实施例中,比如,多个预测模型的精确度之间并无明显差别时,为了进一步提高基因组选择育种的准确性,可以分别对多种预测模型的精确度进行评估,并利用满足精确度要求的预测模型分别计算育种群体的基因组估计育种值,每种预测模型的计算结果都按照基因组估计育种值由高到低的顺序进行挑选,进一步选择那些被多个预测模型共定位到高育种值的个体作为育种材料。[0058]实施例3
[0059]本实施例公开了一种羊某性状的基因组选择育种的方法。如图3A至图3H6所示,该方法包括以下步骤:[0060]S1,表型特征分析:检测数量性状的表型是否符合正态分布或者偏态分布,如果有偏离杠杆值的极端表型,需要及时剔除,结果如图3A所示;[0061]S2,群体分层分析:通过主成分分析(PCA)或者群体结构分析(Structure)判定群体有几个群体结构,将其计算的结果作为固定效应加入全基因组关联分析(GWAS)模型中,结果如图3B所示;[0062]S3,连锁不平衡(LD)分析:判定几个类群体以及大群体的衰减距离,通过衰减距离对高密度标记经过连锁不平衡(LD)过滤,以防SNP之间的强连锁不平衡(LD)引发的多重共线性的效应导致全基因组关联分析(GWAS)模型拟合度下降,结果如图3C所示;[0063]S4,亲缘关系分析:通过计算群体个体间的亲缘距离,将其作为随机效应加入全基因组关联分析(GWAS)模型,结果如图3D所示;[00]S5,全基因组关联分析(GWAS):通过全基因组关联分析模型(即混合线型模型)计算表型与高密度标记之间的关联程度,选择出具有统计学意义的标记,结果如图3E所示;[0065]S6,模型评估与选择:分别对RRBLUP、BL、BA、BB、BC、BRR 6个二步法模型进行评估模型精确度,选择适应项目的模型,结果如图3F所示;[0066]S7,标记效应(Marker effect)分析:计算6个二步法模型的全基因组中具有统计学意义的标记的效应值,结果如图3G1至图3G6所示;[0067]S8,基因组估计育种值(GEBV)分析:通过S7中6个二步法模型的效应值去预测相应模型的基因组育种值,以及基因组最佳线性无偏预测(GBLUP)模型通过一步法方法跳过模型评估和标记效应值直接计算基因组估计育种值(GEBV),选择高基因组估计育种值(GEBV)去育种。还可以检测7个模型的结果,选择多个模型共定位到高育种值的材料,可以选择这些材料进行育种,结果如图3H1至图3H6所示。[0068]实施例4
[0069]如图4A到图4D所示,本实施例展示的是一种鸡大胸肌重比率的基因组选择育种分析结果图,通过基于illumina平台的高通量测序获得的高密度SNP标记数据得到的基因组育种分析得到,其中利用了2010956个SNP,519个样本进行全基因组选择育种。[0070]其中,图4A示出了模型预测精确度结果中众数最高的值为BB模型,图4B示出的是rrBLUP模型计算得到的标记效应值结果;图4C示出的是rrBLUP模型计算得到的基因组估计育种值结果。图4D示出的是7个预测模型相互结合选择育种的数量纬恩图,每个模型结果提供前5%的高GEBV的样本,最的数据7指的是7个模型共同选育出来的7个样本,其他数
11
CN 111524545 A
说 明 书
8/10页
字是7个模型所有的组合情况都考虑的情况下所选育的样本。
[0071]由于现有技术基本都是只用一个模型去进行基因组选择,精确度在0.3左右。而本申请的实施例在一个测试模型精确度基础上再进行多个模型联合选择育种,剔除每个模型选育出的特有的样本,这些样本有可能是假阳性的存在,减少假阳性的同时也是提高选育样本的精确度,大大提高育种效率。[0072]从以上的描述中可以看出,本发明上述的实施例实现了如下技术效果:通过综合多个预测模型对育种群体进行基因组估计育种值计算,然后利用多个模型的计算结果对具有高育种值的个体材料进行共定位,即选择出在所有的预测模型的计算结果中都具有高育种值的个体作为育种材料,大大提高结果的精确性。而且,本申请的上述方法还可以从多种预测模型中寻找出最佳模型预测最佳育种材料,从而提高了基因组选择育种结果的准确性。
[0073]本申请的方法能够同时对多个模型多个表型同时运行,同时产生基因组选择结果,从而高效完成基因组选择分析。该方法能适应大部分的材料背景,填补了在超级计算机中基因组选择(GS)分析上的空白,有助于提高育种选择的效应,促进育种的进展。[0074]相比现有的方法是在桌面PC端面,服务大部分实验,适合小数据量,本申请的方法和装置不仅适合小数据量,也适合大数据量,主要在超级计算机中运行,只要适配好文件,一键化运行,通过自行调试CPU运行数量提高运行效率,可在后台同时运行7个模型。7个模型的结果绘图精致。因此,本申请的方法在需要计算的数据量、计算的模型完整度、计算的效率和结果展示都有很大程度提升。
[0075]本申请的方法和装置适合的样本类型多,不管什么类型的数据,如WGS、GBS、RAD、芯片的基因型,样本如自然群体、系谱群体等,只要格式保持一致都可以进行分析。[0076]本申请的方法和装置采用多个模型联合分析,共同选育样本,精确性更高,选择性更丰富。
[0077]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
[0078]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得计算设备执行本发明各个实施例的方法,或者是使得处理器来执行本发明各个实施例的方法。[0079]实施例5
[0080]本实施例提供了一种全基因组选择育种的装置,如图5所示,该装置包括:获取模块20、育种值估计模块40及选择模块60,其中,获取模块20,用于获取训练群体中与目标表型显著关联的标记;育种值估计模块40,用于根据训练群体及标记,利用多种全基因组选择预测模型计算育种群体中每个个体的基因组估计育种值;选择模块60,用于按照基因组估
12
CN 111524545 A
说 明 书
9/10页
计育种值从高到低的顺序,选择在多个全基因组选择预测模型中均排在前预定数量的个体作为育种材料。
[0081]上述装置中,多种全基因组选择预测模型包括:基因组最佳线性无偏预测模型、岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少4种。[0082]当上述装置中,多种全基因组选择预测模型包括:岭回归最佳线型无偏估计模型、贝叶斯套索模型、贝叶斯A模型、贝叶斯B模型、贝叶斯C模型及贝叶斯岭回归模型中的至少3种时,由于这6种模型是通过两步法来实现基因组估计育种值的计算的,因而,在一种优选的实施例中,上述育种值估计模块包括:模型精确度评估模块、效应值计算模块及育种值估计子模块,其中,模型精确度评估模块,用于利用训练群体中的目标表型与标记之间的显著关联性,对多种全基因组选择预测模型进行精确度评估,得到满足精确度要求的一个或多个全基因组选择预测模型;效应值计算模块,用于利用满足精确度要求的一个或多个全基因组选择预测模型,计算得到各标记的效应值;育种值估计子模块,用于利用各标记的效应值计算得到育种群体中每个个体的基因组估计育种值。[0083]在一种优选的实施例中,上述获取模块包括:全基因组关联分析模块,用于对训练群体来源于基因芯片或基因组重测序的测序数据进行全基因组关联分析,从而获得与目标表型显著关联的标记。
[0084]在一种优选的实施例中,全基因组关联分析模块包括:综合分析模块,用于对测序数据进行综合分析,综合分析表型分布分析、群体结构分析、连锁不平衡分析以及亲缘关系分析;全基因组关联分析子模块,用于根据综合分析的结果进行全基因组关联分析,从而获得与目标表型显著关联的标记。[0085]在一种优选的实施例中,全基因组关联分析模块包括:表型分布分析模块,用于检测测序数据中数量性状的表型是否符合正态分布或者偏态分布,并剔除偏离杠杆值的极端表型;群体结构分析模块,用于通过主成分分析或者群体结构分析计算训练群体中群体结构,并将群体结构数量作为固定效应加入全基因组关联分析子模块中;连锁不平衡分析模块,用于通过衰减距离对全基因组的标记进行连锁不平衡过滤,去除存在多重共线性的效应的标记;亲缘关系分析模块,用于通过计算训练群体中各个体间的亲缘距离,并将亲缘距离作为随机效应加入全基因组关联分析子模块;全基因组关联分析子模块,用于计算数量性状的表型中与全基因组的标记之间的关联性,从而选择得到与目标表型存在显著关联的标记。
[0086]实施例6
[0087]本申请还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种全基因组选择育种的方法。[0088]实施例7
[00]本申请还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行任一种全基因组选择育种的方法。[0090]需要说明的是,本申请中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产
13
CN 111524545 A
说 明 书
10/10页
品或设备固有的其它步骤或单元。
[0091]通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。[0092]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0093]本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、多处理器系统、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。[0094]显然,本领域的技术人员应该明白,上述的本申请的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不于任何特定的硬件和软件结合。
[0095]以上所述仅为本发明的优选实施例而已,并不用于本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
14
CN 111524545 A
说 明 书 附 图
1/14页
图1
图2
15
CN 111524545 A
说 明 书 附 图
2/14页
图3A
图3B
16
CN 111524545 A
说 明 书 附 图
3/14页
图3C
17
CN 111524545 A
说 明 书 附 图
4/14页
图3D
图3E
18
CN 111524545 A
说 明 书 附 图
5/14页
图3F
图3G1
19
CN 111524545 A
说 明 书 附 图
6/14页
图3G2
图3G3
20
CN 111524545 A
说 明 书 附 图
7/14页
图3G4
图3G5
21
CN 111524545 A
说 明 书 附 图
8/14页
图3G6
图3H1
22
CN 111524545 A
说 明 书 附 图
9/14页
图3H2
图3H3
23
CN 111524545 A
说 明 书 附 图
10/14页
图3H4
图3H5
24
CN 111524545 A
说 明 书 附 图
11/14页
图3H6
25
CN 111524545 A
说 明 书 附 图
12/14页
图4A
图4B
26
CN 111524545 A
说 明 书 附 图
13/14页
图4C
27
CN 111524545 A
说 明 书 附 图
14/14页
图4D
图5
28
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务