顶[0] 分享评论[0] 编辑

生物信息学

生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

后基因组时代(2001至今) 随着人类基因组测序工作的完成，各种模式生物基因组测序的完成，生物科学的发展已经进入了后基因组时代，基因组学研究的重心由基因组的结构向基因的功能转移。这种转移的一个重要标志是产生了功能基因组学，而基因组学的前期工作相应地被称为

生物信息学

生物信息学是建立在分子生物学的基础上的，因此，要了解生物信息学，就必须先对分子生物学的发展有一个简单的了解。研究

生物信息学在短短十几年间，已经形成了多个研究方向，以下简要介绍一些主要的研究重点。

序列比对

序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看，这一问题包含了以下几个意义：从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮，遍历和比较数据库中的DNA序列，比较两个或多个序列的相似性，在数据库中搜索相关序列和子序列，寻找

以数据(库)为核心

1 数据库的建立

2 生物学数据的检索

3 生物学数据的处理

4 生物学数据的利用：

生物信息学

生物信息的大规模给数据挖掘提出了新课题和挑战，需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中，但越来越不适用于序列分析问题。究其原因，是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义：学习是系统的变化，这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论，通过采用如推理，模型拟合及从样本中学习，尤其适用于缺乏一般性的理论，"噪声"模式，及大规模数据集.因此，机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识，发现知识成为可能.机器学习方法在大样本，多向量的数据分析工作中发挥着日益重要的作用，而大量的基因数据库处理需要计算机能自动识别，标注，以避免即耗时又花费巨大的人工处理方法.早期的科学方法——观测和假设——面对高数据的体积，快速的数据获取率和客观分析的要求——已经不能仅依赖于人的感知来处理了。因而，生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的，从某种意义来说，是统计模型拟合的延续，其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类，神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.研究重心包括：1)观测和探索有趣的现象.ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间，如常规的主成分分析(PCA)，核主成分分析(KPCA)，独立成分分析(Independent component analysis)，局部线性嵌套(LocallyLinear embedding).2)生成假设和形式化模型来解释现象。大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中，癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展，也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型，而一般数据结构通常是可变的，在生物信息学中尤其如此，因此，有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次，机器学习方法中常采用"黑箱"操作，如神经网络和隐马尔可夫模型，对于获得特定解的内在机理仍不清楚。

数学问题

生物信息学中数学占了很大的比重。

生物信息学

生物信息学中面对的数据量和数据库都是规模很大的，而相对的目标函数却一般难以给出明确的定义。生物信息学面临的这种困难，可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾，一般从数学上来看，引入某个正则项来改善性能是必然的。以下对基于这一思想产生的统计学习理论，Kolmogorov复杂性和BIC(Bayesian Information Criterion)及其存在的问题给出简要介绍.支持向量机(SVM)是较热门的一种方法，其研究背景是Vapnik的统计学习理论，是通过最大化两个数据集的最小间隔来实现分类，对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质，这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择，因此，受到广泛的注意.在生物信息学中也开始受到重视，然而，核函数的选择问题本身是一个相当困难的问题，从这个层次来看，最优核函数的选择可能只是一种理想，SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质，前者从编码的角度，后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的，因此由此衍生了

生物信息学

人类对基因的认识，从以往的对单个基因的了解，上升到在整个基因组水平上考察基因的组织结构和信息结构，考察基因之间在位置，结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变，本节就这些问题做出探讨和思索。

启发式方法

Simond在人类的认知一书中指出，人在解决问题时，一般并不去寻找最优的方法，而只要求找到一个满意的方法.因为即使是解决最简单的问题，要想得到次数最少，效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大，后者不依赖于问题的空间，不需要进行全部搜索，而只要能达到解决的程度就可以了.正如前所述，面对大规模的序列和蛋白质结构数据集，要获得全局结果，往往是即使算法复杂度为线性时也不能够得到好的结果，因此，要通过变换解空间或不依赖于问题的解空间获得满意解，生物信息学仍需要人工智能和认知科学对人脑的进一步认识，并从中得到更好的启发式方法。

问题规模不同的处理：Marvin Minsky在

广东药科大学新增生物信息学本科专业

据中国高校之窗2018年3月27号报道，根据《教育部关于公布2017年度高等学校本科专业设置备案或审批结果的通知》(教高〔2018〕4号)，广东药科大学获批生物信息学本科专业。至此，广东药科大学本科专业增至45个。该专业将于2019年开始招生。

生物信息学本科专业属理学门类中的生物科学类，学制4年，授予工学学位。该专业是生命科学与技术、数理科学、统计学、信息科学与技术交叉的交叉复合型专业，培养适应社会与经济发展需要，掌握生命科学与技术、数理科学、统计学、信息科学与技术、生物信息学的基本理论、知识和技能，能在教学、科研、高新技术产业及其相关领域从事人才培养、科学研究、技术开发以及管理等方面的复合型人才。

故事内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本故事还有待完善，请编辑

生物信息学

目录

数学问题

附件列表

标签

同义词