二、项目方案:
主持国家自然科学基金青年项目:分形与统计相关方法在蛋白质亚细胞定位及功能预测中的应用,项目编号:11401503
主持省教育厅优秀青年项目:基于异构复杂网络方法的人类疾病基因预测,项目编号:16B256
三、学校提供条件:
指导老师在机器学习、网络拓扑方面具备深厚的研究经验,为本项目的资料调研、数据收集、数据分析提供支持。
四、预期成果:
1.
基于网络拓扑相似度和社团结构相结合的疾病基因检测方法的优良性可以整合分子功能和疾病相关信息,确定蛋白质网络中隐藏的功能模块和疾病信息,可针对性的避开不良因素,从而让疾病不能表达,做到真正的预防疾病。
2. 有效地利用蛋白质网络拓扑结构预测疾病基因在节省实验成本的同时,可望缩短发现疾病基因的周期,在疾病基因专利争夺战中占据先机,对于未来生物医药产业与个性化基因治疗等的发展具有重要的战略意义。最后,疾病基因预测对于药物靶标基因的鉴定与评估、新靶标的发现与选择也具有一定的参考意义。
五、经费预算:
作为人体一切细胞、组织的重要组成成分,蛋白质参与人体内大部分重要生命现象,故蛋白质的结构、组成出现故障也可能会导致人类疾病的出现,陈主初、肖志强于2006年1月出版的《疾病蛋白质组学》就是围绕蛋白质结构、功能等与人类疾病的关系展开,现在随着高通量生物实验技术的迅速发展,蛋白质之间相互作用的数据被人们重视,不同蛋白质团内和团间相互作用和某些疾病团的关系愈发明显。我们这次的研究内容大致也是围绕蛋白质结构、功能和目前人类疾病关系的挖掘这一主要目的来深入探讨研究。
通过翻阅相关书籍以及阅读最新文献,我们发现在考虑蛋白质相互影响的前提下通过蛋白质结构功能来预测疾病的准确率要远高于仅考虑单个蛋白质对疾病发生的影响,故本文基于已知蛋白质相互作用网络,以极大完全子网等网络拓扑相似度和社团结构相结合的方法来预测基因,从而更好治疗相关疾病。
首先我们根据蛋白质相互作用网络来预测其具体方法的框架基础,来为本文整体研究提供指导性方法,第一步:评定预测蛋白互作的计算方法的可靠程度;第二步:将可靠程度高的预测方法加以多个结合,形成若干方法;第三步:预测、评估蛋白质的互作集合;第四步:根据预测的蛋白互作均满足多方面的生物学意义这一原则,挑选出可靠度更高的预测结论。
接下来,根据功能模块和复合物的多样性,提出四种不同的方法来更准确发现蛋白质的功能模块和疾病模块。第一种方法基于显性的宽进严出模型,在包含大量干扰数据集的情况下也可以稳定获取蛋白质的互作预测;第二种方法基于第一种方法的简化,反复迭代预测的蛋白质互作以获得更多蛋白质互作集合;第三种方法是一种桥分割复合物的算法,作用于多子网结构的复合物互作集合;第四种是一种自适应的k核聚类剪枝预测算法,适应性更强,作用于各种不同结构蛋白质团。
然后在第二步的基础上继续找出网络中的潜在蛋白团,利用基于候选集竞争的方法,挖掘候选集中节点点与点之间的隐藏信息,再挑选最大可能的候选节点扩展团,再重复上述操作最终确定一个稳定的潜在团,这样的团最接近真实情况,并且不会受数据不足或者缺失的影响。
最后,根据团中的显著性蛋白是否为现已知的疾病蛋白质来确定该团是否为某种疾病相关的蛋白团,再通过该蛋白团来预测内部蛋白是否为疾病蛋白,通过基因本体论注释为预测的蛋白打分,来挑选出该种疾病蛋白。
本文采取该种改进的网络拓扑方法更加准确预测蛋白质对人体疾病的影响,克服了数据中的噪音和部分缺失情况,从而能够更加准确预测出疾病的根源,有利于解决患者病痛困扰。