当前位置 :  主页>分析服务>通用产品与服务>文本挖掘服务
 

文本挖掘服务

发布时间:2011-01-27
生物医学知识发现平台
生物医学文献中蕴藏着各种各样的生物医学知识,通过借助不同的数据挖掘/文献挖掘方法,文献挖掘可以选择性的从中提取出特定主题的知识。作为一个完整的文 献挖掘平台,需要完成两类功能:数据处理与文献挖掘。数据处理包括文献数据处理和其他数据处理,如从文献数据库中获取文献数据,验证数据的完整性,提取文 献数据中的特定信息,以及提取其他类型的数据中的指定信息。在数据处理系统提供的规范化数据的基础之上,文献挖掘系统对其进行统计或者NLP方面的分析处 理,进而挖掘出实体名称、实体关联模式和实体关联网络等知识。
根据文献挖掘的处理流程,生物医学知识发现平台包括六个子系统:1)文献获取系统,主要功能包括文献下载、文献校验、数据更新和数据日志分析等;2)数据 预处理系统,主要功能为从原始数据中提取出指定的信息,并按照需求保存为合适的格式;3)NLP系统,加工文本数据,将文本数据转换为可以进行知识推理的 素材,主要功能为分词、实体名称识别、词性标注和实体名称映射等;4)关系挖掘系统,主要功能为计算实体共出现频率,提取实体关联模式,提取关联实 体;5)网络构建系统,主要功能是提供实体关联网络的基本性质以及连通子图、Hub子图和关联子网络的提取;6)网络可视化系统,图形化展示网络分析结 果。系统的部分成果发布在http://lifecenter.sgst.cn/textweb
技术基础
生物医学知识发现平台是一个JavaEE系统,整合了GeniaTagger、Mallet、ABner和Standford Parser等自然语言处理相关的软件,能够完成常见的文本挖掘任务。由于文本挖掘任务是高计算量的工作,知识发现平台在多线程处理方面进行了大量的优化 工作。
服务方式
依托知识发现平台,我们能够提高如下的服务:
生物医学文献注释与服务:从文献中识别出实体,从而实现文献注释的目的,并能够在传统的文献查询功能基础之上,提高基于实体的查询;
特定疾病相关的文本挖掘:能够提供疾病及其相关疾病的信息,以及疾病相关的基因、蛋白质、小分子等信息;
多个基因/蛋白质的关联网络分析:依托全文献数据库的文本挖掘结果,构建实体关联网络,从而能够从网络中找出指定的基因/蛋白质之间的关系,并以网络的形式展示这种关系;
生物医学数据整合服务:借助实体关联网络和实体名称-生物医学数据映射技术,我们能够提供基于文献的数据整合服务;
其它文本挖掘定制服务:我们可以依照用户需求,分析文献的内容,为用户定制特定的文本挖掘服务。