随着农业育种技术的不断精进,我们吃的食物越来越多样,并且与之前的食物外观、味道有些不一样。比如,小时候吃的白菜,叶子上总有许多被虫吃的洞眼,而且白菜只有一两个品种,如今白菜有近10个品种,叶子上没有小洞。其实,自从作物被驯化以来,培育集抗性强、优质、高产等性状为一体的作物品种一直是育种家的梦想。DNA分子结构模型的发现推动了分子生物学的发展,让育种家们能够从基因和分子水平上解码作物的生命秘密,通过调控基因获得特定表型,以期培育出较想要的作物品种。
然而,如何调控作物基因才能培育优良品种?育种,从某种意义上来说,是把来自不同种质资源的优良等位基因聚合起来。时至今日,作物育种经历了漫长的改良之路。传统育种是耕作者对作物表型变异的肉眼观察,通过主观判断选出高产优质抗性强的育种材料。后来,职业育种家出现,他们根据对作物遗传规律的认识,通过预先设计杂交育种试验,再从后代中筛选出优良栽培品种。这些方法曾为作物改良、有效解决粮食安全问题作出了巨大的贡献。但在某种程度上,却都是基于经验和观察,完全根据表型对育种材料进行选育的“经验育种”。科学家曾“无奈”而又形象地将其形容为“一把尺子一杆秤,用牙咬,用眼瞪”。
直到20世纪50年代,分子生物学与基因工程的诞生,打开了人类认识生命本质的大门。作物育种从经验育种时代进入了分子定向育种时代。这个时期,育种家可在明确基因型的表型效应的情况下,有的放矢地把符合预期要求的基因型进行组合。
伴随着高通量基因组测序技术的发展,越来越多的作物全基因组密码被解开。在海量的基因组数据面前,控制优良性状的基因是哪些?怎样的基因组合才能产出较优的作物品种?
为了明确哪些分子标记和哪些性状相关联,通过借助机器学习模型或深度学习模型帮助育种家根据基因型预测表型。人工智能技术突破了人的经验,使作物育种更加精准而高效。
机器学习是借助计算机算法建立模型并解析数据,通过不断学习数据的自身特征并训练模型,从而实现对目标对象的判断和预测。研究人员以基因家族代替单个基因为单位随机分配训练集和测试集数据,以解决“进化依赖”造成的模型“过拟合”问题。接着进一步利用多种算法对模型进行解析,获得了调控基因表达的关键DNA基序。在此模型基础上,研究人员利用进化上亲缘关系较近的两个物种,成功预测了同源基因的相对表达量,并进一步获得了调控同源基因相对表达量的关键DNA基序。除此之外,训练深度学习模型需要大量的数据。然而在农业领域,作物的基因型和表型数据量却积累不足。
因此,有育种*建议研究人员在育种后,除了留下优质品种数据,也要保存非理想型品种的全套基因组和表型数据,以便数据建模时进行优劣比较,找出调控优良表型性状的基因。
大数据时代下智能化育种的前提是标准化大数据体系。而农业数据采之不易且不统一,作物表型数据差异性较大,不同人采集的数据真实可靠性与准确性也难以控制。除此之外,彼此数据不开放共享,使得研究中可比较的数据量少。
未来,要想育种得到更好发展,那么有表型大数据是第一步。对大数据进行规范化采集处理、存储与管理,并建立开放共享的数据库反而更重要。目前应某食用菌企业发展需求研发了食用菌表型大数据平台系统,采用深度学习技术对食用菌种质管理、育种栽培、生产包装进行一系列的系统研发,并聚合食用菌行业表型大数据,为企业种质研发管理提供科研数据依据,并形成企业核心竞争力。
三亚博瑞源科技有限公司专注于表型系统解决方案,表型分析仪,食用菌表型设备等