本平台是“嵌入知识组织体系的规模化领域预训练基础模型构建”的课题成果,课题编号:2022YFF0711901。该课题隶属于国家重点研发计划“科技文献内容深度挖掘及智能分析关键技术和软件”,项目编号:2022YFF0711900,平台网址:https://sciaiminer.las.ac.cn/。
本课题预期构建8个领域的预训练基础模型,提升科技文献内容挖掘的起跑线。课题依托于海量科技文献优势数据,研究科技文献元数据的语义标注和语义关联揭示,多维度文献质量评价体系构建,以及多粒度知识体系内容描述,汇聚涉及8个领域的科技文献,构建语义丰富化、高质量、大规模预训练语料库。
在此基础上,聚焦嵌入知识体系的预训练模型关键技术研究,深入发掘并运用知识体系和科技文献的特点,研究预训练模型的知识嵌入和探测方法、基于科技文献典型特征的篇章级预训练模型、多模态内容感知的大规模预训练模型。在领域预训练基础模型建设与发布方面,调配优势算力,基于并行策略的大规模领域化训练,发布8个领域预训练基础模型,进一步支持领域科技文献内容的深度挖掘利用。
课题牵头单位是中国科学院自动化研究所,参与单位包括:中国科学院文献情报中心、中国科学院计算机网络信息中心、北京万方数据股份有限公司、广州奥凯信息咨询有限公司。