在生物医药领域FTO专利检索中,除了利用专利数据库构建检索式外,对于生物序列的检索,还要使用特定的生物序列检索工具进行检索。对此,智慧芽旗下生物序列数据库重磅上线通式序列比对算法,旨在检索专利中隐藏的“万亿序列”的通式序列,并于今年10月,生物序列数据库免费版正式上线并开放注册,助力专业用户进一步提升效能。

FTO(Freedom to Operate)专利检索与分析是医药企业评估专利侵权风险的有效手段,充分掌握并实施FTO专利检索与分析有助于医药企业更好地降低风险、减少损失。在进行FTO调查的过程中,检索数据库的选择至关重要。FTO检索是查全性检索,如果选择的数据库检索不全面,就会增加一定的侵权风险,因此保证检索式命中结果的全面性和准确性,至关重要。

一、通用序列检索:辐射万亿序列,检索全面性时代开启

背景:专利撰写人员会在序列中引入简并符、通配符和运算符等信息,并通过大段解释性文档描述这些符号的具体参数。通式序列并不具备生物学意义,它主要用于扩展专利的保护范围并设置搜索障碍。传统的序列同源性比对算法并没有考虑到这种通式序列的情况,因此使用传统算法进行搜索存在漏检风险,无法找出所有潜在目标序列

根据智慧芽生物序列数据库统计显示,在全球专利文献中,这种特殊的通式序列数量并不低:核酸约740万条,占总核酸数的7.12%;蛋白序列131万条,占总蛋白序列数的7.55%。这表明大量的通式序列,由于特殊符号的存在,会对检索结果产生影响,对于序列FTO来说风险非常高

例如,查询序列

"EVGSYPAPSDACPSDYFYCDASGRSAGGGGTENLYFQGSGGS",在命中目标序列时,"EVGSYXXXXX XCXXXXXXCX XSGRSAGGGG TENLYFQGSG GS"。

使用传统序列方式检索,BLAST算法的相似度仅为67%,但实际上相似度为100%。这种生物序列通过常规算法搜索会导致两种情况:要么序列无法搜索,要么由于相似度低于阈值而被排除在结果之外。无论哪种情况,都会给序列搜索人员带来不便,无法方便地与权利要求进行同源性比较,甚至会漏检关键序列信息。

为了解决通式序列带来的漏检风险,智慧芽算法工程团队利用自研的NLP、CV、实体识别、指代消解等技术,构建了深度学习模型,用于识别和解析序列表和专利全文中的通式序列及其取代信息,并建立了通式序列检索库

图:智慧芽生物序列数据库通式序列检索入口

该库通过特殊的序列比对算法,在通式序列检索时不仅能够搜索这类序列,还能返回真实的相似度。智慧芽的通式序列检索解决方案能够进一步降低在专利FTO和查新工作中的漏检风险。

图:智慧芽生物序列数据库通式序列检索示意

二、免费版全面开放注册,即开即用!

常见的公共免费序列检索数据库,往往存在专利数据收录不全、算法以及保密等问题,不适合用于严谨的防侵权分析。所以,在进行FTO专利检索与分析时,常选择数据收录和算法均能满足防侵权分析的商业数据库进行序列检索。智慧芽生物序列数据库作为主流商业数据库之一,今年10月重磅宣布免费版正式上线并开放注册。

无论您是致力于开发新型癌症治疗方法的生物科学家,希望了解可能影响药物反应的不同序列变异,还是需要进行成果序列可专利性分析及FTO工作的知识产权律师,智慧芽生物序列数据库均是帮助您解锁和理解复杂生物序列的重要工具。

免费版权限:常规搜索、短序列搜索、Motif搜索各5次、可使用变异过滤查看变异报告、可查看来自序列索引专利、序列索引公开库、人工标注序列的50条序列详情。

数据量及数据源:智慧芽生物序列数据库收录海量全球生物序列相关数据,并基于AI与人工标注数据,高效保障准确性,满足用户的序列检索分析需求。

图:数据量及数据源

特色功能:

◆ 利用从上亿个全球专利、期刊文献、生物公开库中提取的蛋白质和核酸序列数据库。

◆ 通过人工注释关键生物序列,标注修饰结构,反映最真实的序列,提升序列信息获取效率。

◆ 开启协作新世界,可以利用公共空间与同事协作分享检索结果、生成综合报告、比较序列比对等

◆ 基于通式序列比对算法重新定义您的生物序列FTO,该技术由智慧芽深度数据处理技术和独家搜索人工智能算法提供支持,可避免序列漏检带来的FTO风险。

◆ 提供多场景化序列检索入口:抗体CDRs检索、多序列组合检索、药物/基因索引、通式、片段等,贴近研究人员工作场景。

◆ 利用多维度的过滤功能及独特的序列助手功能,一键精确定位您所需的数据,大大减少在专利中查找生物序列所花费的时间。

检索实例:以司美格鲁肽为例

(1)输入特定序列

(2)筛选过滤

(3)结果分析

(4)查阅详情

应用场景:助力研发和IP决策

◆了解未知序列的潜在功能以及全球研发状况

研发过程中产生的未知功能序列,在传统的实验方法来检测之前,还能通过现有知识来推测其功能及可能的应用领域。

◆分析特定序列的全球研发状态

已知某特定序列,需要了解全球范围针对该特定序列的后续研发、改进设计和应用状况等信息做具体分析。

◆进行成果序列的可专利性分析及FTO工作

研发过程中产生的成果序列,需要查新检索是否可申请专利、以及是否侵犯他人的专利权存在潜在风险。

◆根据靶点、药物等序列属性获取全球研发状况

已知某特定靶点/药物名称、或功能描述等信息,获取全球范围满足条件的生物序列并基于此分析最新研发状况。