您的位置  > 互联网

国内自主研发生物信息学软件和国外差距至少30年

尤其是在生物软件领域,总部位于美国的一系列以基因编辑为核心的软件,在国内使用时,必须将数据提交到国外云端,或者必须购买昂贵的用户许可费。 这导致许多学者和研究人员使用数十种开源免费软件。 他们经常需要将基因数据从一个网站下载到另一个软件,然后再从这个软件传输到下一个网站……整个过程不仅结果可能不理想,而且浪费了大量宝贵的时间。

近日,笔者获悉国内已有自主研发的生物信息学软件。 说实话,我很高兴。 如果鹰谷能够解决生物软件问题,弥补国产生物信息学工业软件的短板,我会很高兴看到结果。 因为不再受制于国外软件,不再将数据存储在国外,对于生物从业者来说是非常有意义的。

笔者与鹰谷工作人员沟通后,获得了试用许可。 笔者发现,它是集成到鹰谷电子实验笔记本中的一个模块,这样在实现基因编辑的同时,设计过程也可以直接记录在实验笔记本中,这是一模一样的。 他们开发的功能现在已整理好以供读者参考。

1.0版本涵盖以下功能点:

序列处理:fasta或序列文件导入、坐标生成、序列注释、序列大小写切换、序列翻转、序列合并、互补链计算、开放阅读框计算、翻译成蛋白质、序列比对、查看酶切位点;

蛋白质生化性质计算:等电点、蛋白质分子量、氨基酸疏水性、蛋白质不稳定体系、氨基酸消光系数等计算; 氨基酸组成分析,氨基酸单字母和三字母表达之间的切换;

抗体设计:抗体编号、互补决定区(CDR)注释和设计、引物设计、引物性质分析、序列搜索和定位等。

下面就跟随笔者的研究,一起来看看.0的功能细节吧!

01 从序列导入开始

序列处理是生物研究人员的基础工作。 支持通过fasta等多种方式导入序列或直接输入序列。 序列导入后,可以自动处理序列。 目前系统支持生成序列坐标、合并序列、切换序列大小写、添加注释、翻转序列等操作。 这些操作都是基于表格完成的,使用和修改都非常方便。 处理序列时也可以使用一些表格使用技巧(如复制、粘贴等),相当于在Excel中实现序列数据处理。 。

图1 插入序列坐标及注释 02 DNA序列分析

导入DNA序列后,我们就可以对DNA进行分析以进行后续操作。 首先,我们可能需要自动匹配互补链。 我们从网站下载的序列往往可能是单链的,系统可以自动补充互补链来构建双链DNA。 接下来计算DNA的基本特性,如Tm值、GC比、序列长度等。不同的用途可能对Tm值、GC比等有不同的要求。

它还可以支持以多种格式复制DNA序列,复制正向和反向链,或者复制成与RNA和蛋白质相对应的正向和反向链。 我们不再需要手动计算对应关系。

图2 DNA的性质和翻译

如果序列是可翻译的,我们还需要注释开放阅读框并将序列翻译成蛋白质。 支持多个起始密码子的识别和开放阅读框的双向搜索。 找到的开放阅读框可以用独特的颜色标记,并且可以将该序列翻译成氨基酸序列以进行相关研究。

图3 开放阅读框自动计算

如果我们需要切割序列,我们需要找到限制位点。 我们可以直接使用表格的搜索功能(Ctrl F)来一一搜索。 虽然能找到,但是并不省力,而且面对大量序列的时候操作起来会比较困难。 它支持自动查找并列出序列的所有酶切位点,真正可以帮助我们快速完成序列切割和替换工作。

如果你想以循环的形式显示序列也是可以支持的,不过图形显示比较简单,据说他们正在优化。 图谱上的注释和酶切位点也可以一起显示,构建环状DNA的遗传图谱。 通过这种可视化的方法,可以帮助我们更好的完成基因编辑工作。

图4 寻找酶切位点

图5 环状DNA 图03 蛋白质序列分析

支持蛋白质序列分析,从序列角度研究蛋白质的性质和功能。 序列可能显示为单个字母,有时看起来很尴尬。 它可以自动切换氨基酸的单字母和三字母书写方式,找到最合适的显示方式。

图6 切换氨基酸表示模式

氨基酸链是蛋白质的一级结构,我们常常需要从蛋白质的组成来研究其性质。 它可以自动分析蛋白质的氨基酸组成并列出每种氨基酸的比例。 此外,还可以对碱性氨基酸的亲水性和疏水性进行分类,以找到那些可能是跨膜区域的疏水基团。 此外,还可以分析蛋白质的等电点、分子量、消光系数、不稳定性等参数,从整体上研究蛋白质的性质。

目前,抗体药物是一个热门研究领域,抗体序列往往需要编号来帮助我们区分不同的功能区域。 支持通过五种方法对多个动物进行编号:IMGT、Kabat、AHo。 编号完成后,即可对相应区域进行注释。

图7 蛋白质的基本性质 04 分子生物学工具

除了这些常规的序列分析功能之外,还有一些分子生物学相关的工具可以更好地帮助研究人员完成实验。

第一个是序列比对功能。 在进行分子生物学实验时,我们不可避免地需要通过比较序列来发现两个序列之间的亲和关系,或者通过将未知序列与数据库进行比较来预测未知序列可能的功能。 支持 DNA 或蛋白质的双序列比对。 比较参数可以自己调整,通过修改匹配、不匹配、差距的分数来控制结果的显示。 序列比对结果直观显示,匹配、错配、缺口一目了然。 除了双序列比对之外,如果需要使用blast数据库资源,可以一键跳转到使用NCBI数据库进行分析。

然后是引物设计功能。 引物设计常常困扰许多研究人员。 问题包括自己的引物是否合适,Tm值是多少,太长或太短有没有影响等等。可以根据序列添加引物,引物就在对应DNA的上方。 在现有序列的基础上添加引物后,还可以手动修改序列,或者检查引物的属性来检查引物是否符合要求。 当然,如果需要更严格的分析,也是可以通过的。

图 8 插入引物

它是近年来比较流行的基因编辑技术,以其效率高、成功率高、运行成本低而受到青睐。 目前支持自动搜索20bp以内的gRNA及其对应的PAM序列。

图9 设计

基于表的序列操作还可以更好地实现序列查找。 系统支持重复序列的搜索,并且可以设置重复序列的长度进行过滤; 您还可以通过逻辑符号搜索模式,或者通过坐标精确搜索。

05 结论

随着分子生物学的发展,生物信息学软件工具已广泛应用于抗体修饰、基因药物设计、合成生物学等领域。据报道,涉及分子生物学的行业市场价值大于10万亿美元。 优秀的生物信息学工具与CAD、EDA等一样重要。

.0似乎无缝地集成了各种便捷的功能。 但在很多方面仍然存在明显的不足。 比如质粒的图形显示界面还比较粗糙,还不具备判断引物质量的功能。 笔者衷心希望国产软件能够加速发展,助力我国的生物研究,让我国的生物医药真正具备自主研发能力。 据悉,上海鹰谷正在开发.0,将更新生物信息相关功能,引入更便捷的用户交互系统。

它会成为国内第一个替代或替代软件的生物识别软件吗? 笔者对此非常期待。