机器学习能否预测疾病风险

2021-11-13 14:05:22

“

生信草堂

将会与更多的优秀微信公众号合作，把最优秀的微信推文呈现给大家，希望可以帮助读者更多的了解生信技术，培养和提高读者的生信分析能力！

号外，号外，号外

你想和生信分析大神做好朋友么？

你想认识更多爱好生信分析的小伙伴么？

你想让自己的生信分析走上快车道么？

那就赶快加入我们的生信交流微信群吧！

正确加入我们的模式是：

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群”

在群里请大家注明自己本名，单位，研究领域

便于小编管理

综述

全基因组关联研究 (GWAS) 是指在全基因组层面上，开展多中心、大样本、反复验证的基因与疾病的关联研究，期望发现一个人群的某种疾病特性与一个特定基因位置或位点的变异之间的关系。全基因组关联研究目前已经广泛应用于疾病表型与基因型之间关系的研究，科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析，并找到了疾病相关的多个易感位点。

然而，对于绝大部分复杂疾病而言，只有少部分患者可以用其中一些易感位点上的变异解释其疾病表型，这种现象被称为“遗传性缺失 (missing heritability)”。对于这种现象，有一个公认的解释是：复杂疾病是由基因与基因，基因与环境之间的交互作用引起的，其中基因与基因的交互作用通常表现为SNP位点的上位效应，即两个或两个以上的SNP位点对表型具有协同影响，而单个SNP通过改变单个基因的表达对疾病发病率的影响通常会很小。

目前的全基因组关联研究主要是探测单个SNP位点与疾病的相关性，缺乏探测多个基因交互作用的能力。因此，GWAS研究虽然发现了疾病大量的潜在易感位点，但是并不能有效应用到疾病的风险预测上。

近几年来，机器学习异军突起，人们无不被AlphaGo的出现震撼，真正感受到了机器学习的强大。事实上，机器学习已经有了半个多世纪的发展历程，算法日渐成熟。而近些年来得益于日新月异的计算机技术以及大数据技术的发展，导致如今的机器学习今非昔比，迅速爆发，各大领域纷纷踏足机器学习。

简单来说，机器学习是数据分析的一种方法，它可以建立分析模型的自动化，通过算法迭代方式从数据中学习，利用数据训练出模型，然后使用模型预测的一种方法。

那么机器学习是否能从基因组学大数据中挖掘疾病相关的易感位点呢？事实上，自20世纪初以来，就出现了一系列机器学习方法应用于研究SNP与疾病的关系，并取得了一定成果。这些方法包括神经网络(neural networks, NN)、随机森林(random forest, RF)、支持向量机(support vector machines, SVM)和多因子降维法(multifactor dimensionality reduction, MDR)。2004年，Tomita 等^[1]利用神经网络对172个患过敏性哮喘的儿童和172个正常人样本的17个基因的25 个SNPs 进行分析，发现了日本人群中与过敏性哮喘相关的10个易感SNPs。2005年，Bureau 等^[2]利用随机森林从131个哮喘病人和217个正常人样本的42个SNP数据中找到了能有效预测哮喘病的SNP。2009年，Wei^[3]等利用支持向量机，收集所有报道的糖尿病1型的潜在易感位点，对公共数据中的1963个糖尿病1型患者和1480个正常人样本进行建模，发现了其中的300多个SNP能够很好地区分糖尿病1型患者和正常人样本。

机器学习相比较于GWAS，能够考虑到所有SNP的组合，即SNP之间的交互作用也能计算进去，因此更能揭示疾病表型与易感位点之间的关联。那么为什么到目前为止，机器学习在基因组学上的研究并没有GWAS那么广泛呢？最主要的原因是：

机器学习如果从全基因组出发，即包含个体所有的SNP位点，那么理论上需要计算300万个SNP，从中寻找与疾病关联的一组SNP，这计算量将是无比巨大，需要的计算资源不可想象，目前还没有任何机器学习的算法能够处理如此巨大的数据。因此，目前机器学习最适合的策略是包含当前所有已报道的与某疾病相关的易感位点，从这些潜在的易感位点中发现真正能够预测疾病的模型。而过去的研究发现的疾病相关易感位点非常之少，远远达不到机器学习模型训练的要求。如今，虽然通过GWAS发现了大量的疾病相关易感位点，但这些易感位点仍然只是疾病实际作用位点的一小部分，仍无法使机器学习达到最佳的效果。所以，目前机器学习在疾病的风险预测研究中还达不到突破性的进展。

但是，机器学习依旧会成为未来通过个体基因型预测疾病风险的主流趋势。随着高通量测序技术的持续发展，疾病样本的测序数据不断积累，以及分析方法的迅速进步，势必会发现更多疾病相关的易感位点。此外，得益于深度学习的快速发展，使得越来越多的处理大型复杂数据集的深度学习技术逐步涌现出来。因此，机器学习的优势将越发明显。

我们可以相信，在未来的几年，机器学习在基因组生物学、基因组医学以及精准医疗中所起的作用将会迅速凸显出来，机器学习在基因组学大数据上的研究将迎来最好的时代。

参考文献：

1. Tomita Y, Tomida S, Hasegawa Y, Suzuki Y, Shirakawa T, Kobayashi T, Honda H. Artificial neural network approach for selection of susceptible single nucleotide polymorphisms and construction of prediction model on childhood allergic asthma. BMC Bioinf, 2004, 5: 120.

2. Bureau A, Dupuis J, Falls K, Lunetta KL, Hayward B, Keith TP, Van Eerdewegh P. Identifying SNPs predictive of phenotype using random forests. Genet Epidemiol, 2005, 28(2): 171–182.

3. Wei Z, Wang K, Qu H-Q, Zhang H, Bradfield J, Kim C, Frackleton E, Hou C, Glessner JT, Chiavacci R, Stanley C, Monos D et al. 2009. From disease association to risk assessment: an optimistic view from genome-wide association studies on type 1 diabetes. PLoS Genet 5:e1000678.

本文为生信草堂原创，欢迎个人转发分享，其它媒体或网站如需转载，请在正文前注明转自生信草堂并联系bioinformatics88

本周生物资讯锦集

用机器学习的方法预测宏基因组数据中的抗生素抗性基因

你真的能做好环状RNA敲除实验吗？