查看原文
其他

关于中国知网智能检索系统全面升级的公告

广东知网 2020-02-12


关于中国知网智能检索系统全面升级的公告


尊敬的各位知网用户:

中国知网的智能标引技术取得了突破性进展,并在2017年10月试运行到知网总库平台上,承担20%的用户访问。经过1年的运行监控和持续的技术优化,目前已经可以全面升级,从即日起所有用户都将使用知网的智能检索系统。

该系统精确标引出了每一篇文章(包括中文和英文)的主题特征,旨在为读者提供更加完整、系统、准确、及时的中英文检索服务。现将具体解决的检索问题和技术突破公告如下:

一、当前国内外检索系统存在的主要问题

1、默认按相关度排序,排在前面的检索结果长期不变

国内外主要检索系统均是默认按相关度排序,相关度高的文献排在前面,造成的问题便是检索结果的前几页长期不变,上游出版社发表的最新内容在检索环节就被淹没了,读者很难通过检索手段找到最新研究成果。

2、按照时间排序,出现主题漂移问题

通过篇名、关键词和摘要检索并按照时间排序,问题不明显,读者可以得到最新的文献。但是损失了查全率,因为检索结果没有体现文章的全文特征。尤其当读者输入专业的、前沿的检索主题时,往往会漏掉很多成果。

当读者在全文字段中检索(搜索引擎的做法)并按时间排序时,虽然保证了检全率,但排在前面的结果就会出现主题漂移,出现大量不相关的文献。

二、智能检索的技术突破

中国知网智能检索解决了上述两个问题,其核心突破是:主题相关条件下按照时间排序,让读者发现最新的高相关文献。智能检索(用NVSM表示)与传统检索(用KNS表示)的主要区别如下:

1、检索技术

(1)传统检索

KNS检索,以“主题”字段检索为例,实现机制是在题名、作者关键词、机标关键词、摘要等内容字段中检索,无法体现全文特征,容易造成漏检;

以“全文”字段为例,实现机制是在“全文索引”中进行检索,容易造成过检,检出大量不相关的内容

(2)NVSM检索

NVSM检索是在中国知网标引出来的主题字段中进行检索,该字段内容包含一篇文章的所有主题特征。该字段在标引过程中嵌入了专业词典、主题词表、中英对照词典、停用词表等工具,并采用关键词截断算法,将低相关或微相关文献进行截断。

2、排序算法

(1)KNS检索只能实现一维排序,即检索出结果后只能按照主题排序或者按照时间排序。造成的后果就是:第一、按照主题排序,读者获得的结果长时间不变,排在前几页的结果几乎没有变化,最新发表的研究成果往往淹没在海量文献中,无法被读者第一时间发现;第二、按时间排序,由于没有准确的主题标引,排在前列的结果会出现“主题漂移”,与读者的检索意图相去甚远。

(2)NVSM检索实现了主题和时间二维排序。即首先通过智能标引算法实现了主题相关,然后默认按时间排序。这样就攻克了检索领域的这一难题,让读者不仅获得主题相关的内容,并且最新的成果排在前列,让最新的研究成果可以被读者第一时间发现。


同方知网(北京)技术有限公司
2018年9月28日

Modified on

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存