文献或专利的检索一直是医药研发人员工作中重要的环节,目前主流的检索是基于文本信息本身,或者通过挖掘文献内容推荐实体之间关系,来实现其目标。显然,一个或数个关键词的信息是不足以涵盖整篇文本的全部含义,这会导致检索到大量不相关论文,而图片信息量大、独特性高,可能是更好的选择之一。早期医药研发中,医药研发人员也需要搜索文献或专利中关键的化学结构式信息(图片或图表等形式),因此,快速且精准的搜索到包含相同或相似图片信息(化学分子式)的文献或专利是行业急需的。
近期,北京大学王选计算机研究所的吕肖庆团队主导,联合望石智慧及其他学术机构,开发了D2D-MR模型(Document-to-document Recommender System for Medical Literature)很好的解决了该问题,相关成果被IEEE发表(论文链接:Doc-to-Doc Recommender for Medical Literature with Similarity of Molecule Graphs | IEEE Conference Publication | IEEE Xplore),这也是该团队之前分子检索工作的延伸。模型包括PDF分析、分子图提取、分子相似性、论文相似性和论文推荐的完整流程,并引入了多种深度学习算法。通过对万方数据中的数百篇医学论文中分子图形分析和维基百科的检索准确性的评估,模型在检索识别的准确度、效率和MAP值上明显优于已报道模型。这将极大的助力医药相关文献的检索工作。该研究为国家重点研发计划(专业内容知识聚合服务技术研发与创新服务示范No. 2019YFB1406303)中的一部分。
该项工作中,望石智慧的StoneMIND® | Collector通过API接口给团队提供了包括化学结构图提取、图形分类、图形解析以及分子验证功能。极速准确的识别、实时的矫正、定位去重和多种格式的保存等特点,使StoneMIND® | Collector成为支撑该项研究的重要基石之一。
祝贺吕肖庆团队该文章的发表,也期待更多学术成果的产出! StoneMIND® | Collector产品团队将持续利用现有平台,提供API接口、私有化部署、SaaS等服务,满足合作伙伴的多种需求。如有相关合作需求,请联系:bd@stonewise.cn或添加Collector小助手微信:Gotothemoon2021。
关于吕肖庆团队
该团队隶属于北京大学王选计算机研究所,是数字出版领域文档理解与服务方向的专业研究团队,秉承该所“顶天立地”的产学研模式,团队在积极探索学术前沿问题的同时,如图匹配、图相似、图对齐、以及深度图神经网络与图优化融合算法等,也深入了解产业界的实际痛点,通过有效合作携手打造产业化的应用平台,如,基于复杂对象内容理解的文献推荐系统等。