利用爬虫自动计算知网文献引用次数的杰卡德相似性指数

一。背景介绍

    Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数,值为0表示无相关性,值为1表示完全一致。对于两篇论文a和b来说,如果用A表示a的被引用次数,用B表示b的被引用次数,则AB的杰卡德相似指数为:

利用爬虫自动计算知网文献引用次数的杰卡德相似性指数的图1

    从而,如果需要得到AB的杰卡德相似指数,我们只需要知道A、B以及a和b的共引用次数,其中A或者B可以通过知网的这个页面查看:

1.jpg

获取a和b的共引用次数比较麻烦,需要选中两篇文献再进行分析得出,如下图所示:

2.jpg

3.jpg

如果需要求得文献数目比较少,手动点击也是ok的,可是如果需要对某个数据集(例如给定的100篇文献)来进行求解,则会异常麻烦,这时候就需要用到咱们的爬虫技术咯~~

二。代码介绍

    开发工具组合采用的是pycharm+requests组合进行爬虫,另外还用了pandas+chardet以及python自带的一些库。首先F12打开前端代码,找到我们需要的数据,然后用以下函数获取该数据:

4.png

之后,再对数据进行加工处理既可以完成。

最后,欢迎有爬虫需求的小伙伴或者擅长爬虫的小伙伴关注我们的微信公众号联系我们。

公众号:320科技工作室

默认 最新
当前暂无评论,小编等你评论哦!
点赞 1 评论 收藏
关注