引文网络是由文献间引用和被引用的关系构成的集合,这些文献资料包括科技期刊、专利文献、会议论文集、科技报告和学位论文等多种形式,其较好地描述了科学领域的发展、学科间的关系。
引文网络是由文献间引用和被引用的关系构成的集合,这些文献资料包括科技期刊、专利文献、会议论文集、科技报告和学位论文等多种形式,其较好地描述了科学领域的发展、学科间的关系。随着现代信息技术的发展,文献著作数量迅速增加,引文网络已经形成了一个超大规模的复杂网络系统,并吸引了越来越多的关注。由于引文网络包含了多个领域的研究成果,代表了学术研究中重要的知识宝库,其已经成为研究的重要介质。
简介
引文网络被认为是社会网络的变型,该网络中的节点是文献,边代表了文献间的引用关系。引文网络的发展区别于一般的社会网络,它由文献的引用关系确定,不可随意添加或删除,其中的引用关系在时间上具有单向性,只能是后期的文献引用前期的文献。引文与被引文之间体现了文献内容的相关性以及知识的传递。实际上,引文网络中隐含了由文献作者组成的研究群体,该群体具有相似的研究内容,并代表着某个领域的研究现状及未来发展趋势,对促进科研的发展及加快学术成果的流动起着重要的作用。
引文网络是一个逐渐生长的科学网络,每一个节点都需要经过严格的筛选与审核,学术评价的对象既包括对学者个人的评价,也包括对群体,例如科技期刊、研究院甚至某国家、某学科的研究水平。当前对引文网络的研究主要是利用数学、统计学的理论以及比较、归纳和概括等逻辑方法,对引文的数量特征以及内部规律进行分析,用以评价文献在学术领域中的重要性。随着数据挖掘技术的发展,越来越多的研究开始利用引文网络来分析学科发展的状况。
引文网络研究的发展
引文网络的研究最初用于图书情报学领域对科技文献的评价,而随着引文网络在科学研究的发展起着越来越重要的作用,引文网络的研究也得到了众多学者的关注。
最初的引文网络研究是与文本内容无关的,它将科学文本作为研究时的客观资料,考虑到科学语言具有规则性、逻辑性、清晰性等特征,该研究方法主要通过对科学文本进行分析就可以获取该领域的认知,而相关学者的研究及统计结果表明,单纯地分析文本范式难于把握科研领域的发展脉络,必须结合引文中的其它内容进行综合性的分析才能更好地分析特定科研领域的研究成果。
而随着数据库技术的不断发展,引文网络的研究也不再局限于使用单一的数据源,这很好地使引文网络的研究能够方便地从多个数据源中获取引文的数据信息进行综合分析,使得整个引文网络的研究更为全面,而在计量工作方面,早期的引文网络研究主要通过传统的统计分析方法来完成,这对于海量数据的处理能力有限,数据挖掘技术的引入在一定程度上缓解了这方面的问题,而社会网络分析技术的使用从另外一个层面上解决了难以解决文本结构分析的难题,此外,可视化技术也在引文网络研究中得到了一定的应用,使得学者们可以快捷地对引文网络的统计结果进行查询及分析。而通过引文网络中同引、耦合和共著等相关概念的提出,引文网络中科研群体的研究逐渐被人们所关注。
引文网络结构
引文网络是引文分析的研究对象,顾名思义,是指
图 1 引用网络
如果用结点代表引文,用有向箭头代表引文之间的引用关系,描述在时间上就可以绘出引用网络图,随数字增大,表示年代越靠后,如图 1,图中包括多个应用,其中存在大量的同引和耦合。
引文网络的结构特点
引文网络的结构特点有:
①引文网络是静态的,不可以在任何已有节点上增加新的代表引用的单向箭头,也不可以随意删除已有的代表引用的单向箭头,因为文献一经出版之后,它的参考文献就一成不变了;
②引文网络中的引用是单向的,即只能是后期的文献引用前期的文献,而前期的文献不能反过来引用后期的文献;
③引文网络中的引文不可以自引,引文不能自己引用自己,在引文分析中,自引主体只能是作者、期刊、学科、机构等;
④引文网络中的引用是有固定时间的,即文献 A 引用文献 B 是有固定时间的,这个固定时间正好是文献 A 的发表时间,且文献 A 的发表时间必然在文献 B 之后,如图 1 中 8 和 8′同时发表,故不存在 8 引用 8′或 8′引用 8;
⑤引文网络中引文间的引用呈现出主题集中,因为引文间引用的正式性和文献出版的质量控制,引文基本来自同一科学领域或关系紧密的领域。
引文网络测度指标
常见的引文网络测度指标可以分为四类:
①引文数量特征测度指标:引文数。引文数指文献结尾处的参考文献(不含脚注、间注、夹注等),表示一篇文献引用其它文献的数量。
②引文分布特征测度指标:平均引用数、自引数与自引率、被引次数与引用数的比值。
③期刊(论文)影响力测度指标:被引用数、同引和耦合、期刊影响因子、即年指标。
在引文网络中存在大量的同引和耦合。同引(或称同被引)是指两篇或两篇以上文献共同被之后的一篇或多篇文献引用,如图 1 中 5 和 6 同时被之后的 8 和 8′引用;引用它们的论文的多少,即同被引程度,称为同被引强度。耦合则是指两篇文献共同引用了一篇或多篇文献,如图 1 中 2 和 4 共同引用了 1;耦合的文献之间总存在着这样或那样的联系,其联系的程度称为耦合强度。
期刊影响因子是衡量期刊重要性和影响力的重要指标,其算法为:
其中论文总数、时间和被引次数是计算期刊影响因子的三个基本要素。
④文献老化规律测度指标:衰减系数等。
引文网络的研究
研究内容
引文网络是一个包含了大量信息和知识的复杂网络,其重要性勿庸置疑。随着新的科学研究手段的介入,引文网络的价值被逐渐挖掘出来。研究内容主要分为学术评价指标优化、引文网络中社会群体分析、引文网络知识流挖掘以及引文数据源分析抽取等。
研究存在的问题
(1)计算效率。引文网络的数据量非常大,在分析文献的引用文献时,需要抽取的信息量很多,因此构造包含有效信息的引文网络计算开销很大。此外,不同的数据源记录格式不一样,如何对数据进行有效的预处理,是构造引文网络的前提。在电子文献早期,许多数据源的格式并不规范,出现了信息缺失的情况,也可能影响引文网络的质量。
(2)文本分析精确度。引文网络中群体研究以及知识抽取需要依靠强有力的文本分析技术,精确的文本处理有助于引文网络抽取研究主题以及自动分析科研类别。文本分析需要实现的主要任务包括识别出现频率较高的关键词、摒弃语助记号、甄别相同和相近含义的关键词等。有学者提出通过判断涵义、词性对引用进行深层次的分类。需要指出的是,由于人类语言的多样性,给文本分析的研究带来了许多困难。
(3)时效性参数设置。引文网络是一个具有时效性的网络,越早的数据源衰老速度越快。根据年代对引文网络节点的入度赋予相应权值的方法,使时间间隔越小的引用权值越大。但由于不同的引文网络需要选取不同的权值,因此该方法在操作性上还存在一些问题。
(4)引用类型的区分。引文成为标准的科学规范之一是否会被所有的科学家接受并在实践中应用,将影响到引文分析可视化结果的正确性,引文动机的不同给研究带来了挑战。对不符合规范的引用情况,例如对一些“装饰性”的引文进行过滤,并且鉴别出各种不同的引用类型,例如概念引用、方法引用、思想原理的引用等,将会提升引文分析的精确度。