使用CiteSpace软件对知网文献进行关键词共现/聚类/突现分析

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

一、CiteSpace软件介绍

二、CiteSpace软件应用实例-CNKI

2.1确定主题

2.2数据准备

2.3数据格式转化

2.4关键词共现分析 

2.5关键词聚类分析

2.6关键词突现分析

2.7发文机构分析

三、分析总结

3.1关键词共现/聚类分析

3.2关键词突现分析

3.3发文机构分析


一、CiteSpace软件介绍

一、基本概念

CiteSpace(引文空间)是一款专注于分析科学分析中蕴含的潜在知识的软件。它是在科学计量学、数据可视化背景下逐渐发展起来的引文可视化分析软件。通过可视化的手段,CiteSpace能够呈现科学知识的结构、规律和分布情况,并因此将这种分析得到的可视化图形称为“科学知识图谱”。

二、主要功能和用途

  1. 知识图谱构建:根据科学文献的引用关系,CiteSpace可以生成知识图谱,帮助研究人员更好地理解学术领域中不同文献之间的联系和演化过程。
  2. 主题聚类分析:通过关键词和引文共现等信息,CiteSpace可以对文献进行主题聚类分析,帮助研究人员从海量的科技文献中提取出关键主题和热点问题。
  3. 可视化分析:提供了多种可视化方法,如时序图、地图、对比图等,使研究人员能够更直观地展示和分析科学文献数据。
  4. 科研辅助:主要用于科学研究前期的文献综述、科学研究方向的探索、科学研究团队合作与关系的梳理等。

三、应用领域

  1. 论文的文献综述
  2. 国内外期刊分析汇报
  3. 课题研究方向探索
  4. 核心期刊研究

四、开发者和发布信息

CiteSpace是由美国雷德塞尔大学信息科学与技术学院的陈超美博士,以及大连理工大学的WISE实验室共同研发的。用户可以在其官网进行免费下载,网址为:https://citespace.podia.com/download。

五、用户评价

根据华军软件等平台的用户评价,CiteSpace(可视化文献分析软件)下载安装使用过程简单流畅,界面设计容易上手,功能丰富,且实用性高。许多用户都对其给予了高度评价,认为它是一款方便、实用的科研工具。

六、使用方法

在使用CiteSpace时,主要包括文献数据的导入、分析参数的设置、可视化结果的呈现等几个步骤。用户可以从多个权威的数据源获取文献,如Web of Science、中国知网(CNKI)以及谷歌学术等,并通过软件内置的转换工具将数据导入软件进行分析。

二、CiteSpace软件应用实例-CNKI

2.1确定主题

确定研究主题及关键术语,运用尽可能广泛的专业术语来确定所关注的知识领域。本文以国内的“文本挖掘”研究为例,在CNKI数据库中进行检索,通过Citespace探讨近2019年-2024年国内的学术成果分布与合作、研究前沿等

2.2数据准备

在中国知网中以“文本挖掘”为关键词,以年份2019-2024为条件进行检索,发现共有1865篇学术期刊和1994篇硕博论文。

接着将这些期刊和硕博论文以Refworks格式进行导出,注意CNKI每次只能导出500篇文献。(步骤:将显示改为一页50条,点击全选,点击写一页,再点击全选,直到有500条时导出一次,接着重复操作直到将全部文献选中并导出)

最后将导出的全部txt文件内容,复制到同一个txt文件中,并将此txt文件命名为“download_1”。例如我将前面每次导出的1-10个txt文件内容进行合并为download_1.txt文件。

新建一个文档,在里面建立“input、output、data、project”四个文件夹把download_1文档复制到input里面。

data:从output复制过来的数据
input:下载的原始数据
output:经转换后的数据
project:处理后的结果和过程性数据

2.3数据格式转化

打开CiteSpace软件,点击Aggre即可(默认是英文界面)。如果想要中文界面,点击English后再点击Aggre即可。

Citespace分析的数据以Web ofscience数据为基础,其他数据库下载的数据需转换为Wob of Scionce的数据格式才能分析。而本文使用的是CNKI数据库,故需要进行数据转化处理。

点击菜单栏中的数据,并点击“输入/输出”。

点击CNKI,接着将刚才的输入、输出文件夹路径进行填写,最后点击格式转化,运行结束关掉页面即可。 

将转换后的数据从output文件夹中复制到data文件夹里面。

点击“新建”,输入项目名称,修改文件地址,选择数据库和语言,点击Save,项目新建完成。

2.4关键词共现分析 

①修改时间划分,只勾选关键词,勾选下面“精简”里的两个指标,最后点击绿色“开始!”按钮即可。

如果遇到下图这种情况,只需要缩小g-index里面的k值(缩小k值不影响后面的分析), 直到不出现这个报错信息。或者也可以缩短年份,同样可以解决这个问题。

点击可视化

左边的画面为黑色,表明程序还在运行,可以等运行完变成白色,也可以点击停止按钮。画面的左边是关键词出现的频次以及最早出现的年份,右边是控制面板。

在控制板中修改排列方式为“By Freq”,接着可以修改框框中的三个属性的值(控制词语的数量、字大小、节点大小),直到得到满意的图形。

如果觉得词语重叠不好看,可以点击标签中的标签大小,使其均匀分布,这样能是关键词不会重叠,但是就没有频次越高词语越大的效果。

如果不喜欢方形的节点,可以在节点中修改节点形状为圆形。

或者点击功能栏中的节点年轮

如果想修改标签的颜色,按照下面操作即可。

也可以修改标签背景颜色。

也可以去掉背景颜色,将背景颜色透明度拉满即可。

 同时在画面左边还有关键词出现的频次以及出现的平均年份

最后要想保存图片的话,点击文件,另存为PNG。

2.5关键词聚类分析

点击功能栏里的聚类按钮,在弹出来的输入框中输入K,最后点击ok

 聚类之后,在控制板中进行微调即可

最后保存图片如下图: 

如果想做关键词时间线图,就需要在聚类的基础上,点击功能栏中的“TimeLine View”按钮,或者点击控制板里面布局中的TimeLine。

先调整一下背景颜色

如果画面卡白的情况下,可以点击重新运行,然后结束运行。

 如果不想要黄色方框形式的节点,可以点击功能栏中的节点年轮按钮。

最后在控制板中进行微调,保存为PNG图片如下图:

2.6关键词突现分析

点击控制板中的“热点”,点击View,弹出的弹窗中会告诉你共有多少个突变词,然后你要输入显示多少个词,如果突变词个数较少,可以缩小Y【0,1】中的值,比如改为0.5,数值越小,突变词越多。

点击确定后,如下结果

2.7发文机构分析

在节点类型中勾选机构,接着点击开始按钮

画面的左边会统计机构发文的频次以及最早发文的时间

三、分析总结

3.1关键词共现/聚类分析

分析结果如下:

  1. 核心关键词与主题
    • “文本挖掘”和“文本分析”作为最高频次的关键词,显然是该领域的研究核心。它们代表了文本数据处理和分析的基础技术。
    • “机器学习”、“深度学习”、“数据挖掘”等关键词的出现,说明文本挖掘技术通常与这些先进的数据分析技术相结合,以实现更复杂的任务。
  2. 研究热点
    • “情感分析”和“情感分类”的高频次表明,情感分析在文本挖掘领域具有重要地位,尤其是在社交媒体分析、消费者行为预测等方面。
    • “政策工具”、“政策文本”、“政策评价”、“政策变迁”等关键词的出现,表明政策分析是文本挖掘的一个重要应用领域,尤其是在政策制定、政策效果评估等方面。
    • “大数据”和“人工智能”作为现代科技的核心技术,与文本挖掘技术的结合也显示出该领域的前沿性和广阔的应用前景。
  3. 应用领域
    • “在线评论”、“网络文本”、“网络舆情”等关键词表明,文本挖掘技术在处理和分析网络数据方面具有广泛应用,特别是在电商、社交媒体等领域。
    • “乡村振兴”、“数字经济”、“金融科技”等关键词则揭示了文本挖掘技术在不同领域(如农业、经济、金融等)的应用场景。
  4. 研究方法与技术
    • “主题模型”、“内容分析”、“量化分析”、“关联规则”等关键词代表了文本挖掘研究中所采用的主要方法和技术。
    • “知识图谱”和“可视化”等关键词则显示了研究者如何将复杂的文本数据转化为易于理解和分析的图形或图像。
  5. 趋势与变化
    • 从关键词的平均年份来看,大多数高频关键词都出现在2020年,这可能与COVID-19疫情的影响有关,导致了对文本挖掘技术的更广泛关注和应用。
    • 近年来,“政策量化”、“政策协同”、 金融科技”、“事故致因”等关键词的出现,可能预示着政策分析领域、金融领域、交通领域对文本挖掘技术的需求正在增加,同时也显示出该领域研究方法的多样性和深入性。

综上所述,文本挖掘领域的研究呈现出多样化、深入化和应用化的趋势,不仅涉及先进的技术和方法,还广泛应用于不同领域和场景。未来,随着数据量的不断增加和技术的不断进步,文本挖掘领域的研究将会更加广泛和深入。

3.2关键词突现分析

对文本挖掘领域在近几年内的发展动态和趋势进行如下分析:

  1. 早期趋势(2019-2020年)
    • 大数据与网络爬虫:从2019年到2020年,大数据和网络爬虫作为获取和分析大量文本数据的关键技术,得到了广泛的关注和应用。这表明在这一阶段,研究者们开始重视从各种数据源中自动获取文本信息,并对这些信息进行初步的处理和分析。
    • 电子商务:随着电子商务的快速发展,相关的文本挖掘技术也受到了关注。这可能涉及到对消费者评价、产品描述等文本数据的挖掘和分析,以支持商业决策和市场营销活动。
    • 特征提取:特征提取是文本挖掘中的一个重要步骤,用于从文本数据中提取出有意义的特征。这一阶段的关注表明,研究者们开始重视文本数据的预处理和特征工程。
  2. 中期趋势(2020-2021年)
    • 神经网络与文本分类:随着深度学习技术的兴起,神经网络在文本分类中的应用逐渐增多。从2020年到2021年,这一趋势尤为明显,表明研究者们开始尝试使用更复杂的模型来提高文本分类的准确性和效率。
    • 新冠肺炎与微博舆情分析:2020年新冠肺炎的爆发使得社交媒体上的舆情分析变得尤为重要。微博作为中国主要的社交媒体平台之一,其上的文本数据成为了研究者们分析疫情舆情的重要来源。
  3. 近期趋势(2020-2022年)
    • 文本聚类、情感倾向与满意度:从2020年到2022年,文本聚类、情感倾向分析和满意度评价成为了研究的热点。这表明研究者们开始关注文本数据中的群体特征、情感倾向以及用户满意度,以支持更精细化的分析和决策。
    • 情感分析、深度学习、机器学习等技术的深入应用:在这一阶段,情感分析、深度学习、机器学习等技术得到了更深入的应用和研究。研究者们开始探索这些技术在文本挖掘中的新应用和新方法,以应对更复杂和多样的文本数据。
  4. 新兴趋势(2022年至今)
    • 金融科技与事故致因:从2022年开始,金融科技和事故致因等主题开始受到关注。这可能表明文本挖掘技术开始被应用于金融领域的风险管理和事故预防等方面,以支持更智能的决策和风险管理。

总结来说,文本挖掘领域在近几年内经历了从大数据获取和预处理到深度学习、机器学习等技术的深入应用,再到金融科技和事故致因等新兴领域的探索和应用。

3.3发文机构分析

结果分析:

  1. 研究实力与影响力:这些大学在文本挖掘领域的发文频次高,表明它们在该领域具有较强的研究实力和学术影响力。这些机构可能拥有优秀的师资团队、先进的实验设备和丰富的研究资源,能够支持高质量的研究工作。
  2. 学科优势与特色:这些大学中,不少是以财经、经济、管理等学科为主的综合性大学,如中南财经政法大学、东北财经大学、上海财经大学等。这些学科领域与文本挖掘技术密切相关,需要处理和分析大量的文本数据,因此这些机构在文本挖掘领域的研究具有天然的优势和特色。
  3. 研究热点与趋势:这些机构在2019年和2020年开始在文本挖掘领域发表大量论文,可能反映了当时该领域的研究热点和趋势。随着大数据和人工智能技术的快速发展,文本挖掘技术得到了广泛的应用和关注,这些机构也抓住了这一机遇,加大了在该领域的研究投入。
  4. 学术成果与应用前景:这些机构在文本挖掘领域的研究取得了丰硕的学术成果,并可能在实际应用中发挥了重要作用。例如,在金融领域,文本挖掘技术可以用于分析市场趋势、评估投资风险、优化投资策略等;在社交媒体领域,文本挖掘技术可以用于分析用户行为、情感倾向、舆论动态等。这些应用前景广阔的研究领域为这些机构提供了广阔的研究空间和发展机遇。

资料获取,更多粉丝福利,关注下方公众号获取

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/767643.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Dubbo用法示例

1.version版本控制 比如我们现在有两个服务提供者,他们分别对这个接口的实现方式不一样,那么消费者通过代理对象到底调用哪个实现呢,这就可以通过version版本控制来实现,Reference注解的version和Service注解的version需要配对&am…

利用MATLAB批量读取图像时出现名称排序错乱问题解决方法sort-nat函数

利用MATLAB批量读取图像时出现名称排序错乱问题解决方法sort-nat函数 一、问题描述二、解决方法 欢迎学习交流! 邮箱: z…1…6.com 网站: https://zephyrhours.github.io/ 一、问题描述 使用MATLAB批量读取图像文件,会发现提取出…

华为交换机基本命令配置(创建vlan、配置telnet登录)

<HUAWEI>system-view 进入系统视图 [HUAWEI]sysname SW1 交换机命名为SW1 [SW1]undo info-center enable 关闭消息中心 [SW1]quit 退出当前视图 <SW1>display vlan 查看vlan详情 <SW1>system-view 进入系统视图 [SW1]vlan 5 …

OpenSSL EVP详解

OpenSSL EVP详解 Chapter1 OpenSSL EVP详解一、EVP基本介绍1. EVP 加密和解密2. EVP 签名和验证3. EVP 加解密文件 二、源码结构2.1 全局函数2.2 BIO扩充2.3 摘要算法EVP封装2.4 对称算法EVP封装2.5 非对称算法EVP封装2.6 基于口令的加密 三、开发实例3.1 示例13.2 示例23.3 示…

Maya崩溃闪退常见原因及解决方案

Autodesk Maya 是一款功能强大的 3D 计算机图形程序&#xff0c;被电影、游戏和建筑等各个领域的设计师广泛使用。然而&#xff0c;Maya 就像任何其他软件一样可能会发生崩溃问题。在前文中&#xff0c;小编给大家介绍了3ds Max使用V-Ray渲染时的崩溃闪退解决方案&#xff1a; …

Xilinx FPGA:vivado关于单端ROM的一个只读小实验

一、实验要求 将生成好的voe文件里的数据使用rom读取出来&#xff0c;采用串口工具发送给电脑&#xff08;当按键来临时&#xff09;。 二、程序设计 按键消抖模块&#xff1a; timescale 1ns / 1ps module key_debounce(input sys_clk ,input rst_n…

vcruntime140_1.dll下载——修复vcruntime140_1.dll方法解析

vcruntime140_1.dll 是 Microsoft Visual C Redistributable 中的一个重要动态链接库文件。它在许多应用程序的正常运行中起着关键作用。然而&#xff0c;有时用户可能会遇到 vcruntime140_1.dll 丢失或损坏的情况&#xff0c;导致相关程序无法启动。在这种情况下&#xff0c;下…

代码随想录-二叉搜索树①

目录 二叉搜索树的定义 700. 二叉搜索树中的搜索 题目描述&#xff1a; 输入输出示例&#xff1a; 思路和想法&#xff1a; 98. 验证二叉搜索树 题目描述&#xff1a; 输入输出示例&#xff1a; 思路和想法&#xff1a; 530. 二叉搜索树的最小绝对差 题目描述&#x…

Windows Server 2008近源应急OS-1

前景需要&#xff1a;小王从某安全大厂被优化掉后&#xff0c;来到了某私立小学当起了计算机老师。某一天上课的时候&#xff0c;发现鼠标在自己动弹&#xff0c;又发现除了某台电脑&#xff0c;其他电脑连不上网络。感觉肯定有学生捣乱&#xff0c;于是开启了应急。 我们需要…

第三方软件测试公司分享:软件渗透测试的测试内容和注意事项

软件渗透测试是一种通过模拟攻击的方式来评估软件系统的安全性和漏洞&#xff0c;以发现并修复系统中的安全弱点。保护用户的数据和信息不被恶意攻击者利用&#xff0c;也是软件产品开发流程中重要的环节&#xff0c;可以帮助开发团队完善产品质量&#xff0c;提高用户满意度。…

VSG虚拟同步发电机simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 VSG虚拟同步发电机simulink建模与仿真&#xff0c;虚拟同步发电机&#xff08;Virtual Synchronous Generator, VSG&#xff09;技术是电力电子领域的一项重要创新&#xff0c…

Modbus RTU协议简介即CRC算法实现

目录 1 Modbus 介绍2 Modbus RTU协议传输方式2.1 地址码2.2 功能码2.3 数据码2.4 校验码 3 CRC算法实现2.1 代码3.2 运行结果 1 Modbus 介绍 Modbus是一种串行通信协议&#xff0c;是Modicon公司&#xff08;现在的施耐德电气 Schneider Electric&#xff09;于1979年为使用可编…

2024 6G无线通信AI大赛分享交流会暨颁奖典礼圆满落幕

7月1日&#xff0c;由IMT-2030(6G)推进组、IMT-2020(5G)推进组5G与AI融合研究任务组主办&#xff0c;OPPO广东移动通信有限公司承办的2024 6G无线通信AI大赛在北京顺利举行分享交流会暨颁奖典礼。主承办方专家、10支获奖团队代表及6G无线通信相关领域专业人才齐聚北京&#xff…

企业元宇宙3D云端数字化展厅扩大客户触及面

在浩瀚无垠的元宇宙中&#xff0c;一个立体、虚拟的数字空间正在等待您的探索与创造。如何在这片无边界的数字领域中快速搭建起属于您自己的虚拟展馆&#xff0c;已成为当今企业关注的焦点。 元宇宙数字展馆搭建&#xff0c;不仅是对新技术领域的探索&#xff0c;更是品牌创新与…

股指期货看盘技巧和方法分享!

股指期货看盘技巧&#xff0c;简单来说&#xff0c;就是要找到适合自己的方法&#xff0c;同时要考虑大的经济环境。做交易时&#xff0c;要勇敢&#xff0c;不要后悔。 1. 了解自己&#xff1a;首先&#xff0c;你得清楚自己是哪种类型的投资者。你是喜欢长期投资&#xff0c;…

迅睿CMS 后端配置项没有正常加载,上传插件不能正常使用

首先&#xff0c;尝试迅睿CMS官方提供的【百度编辑器问题汇总】解决方案来解决你的问题。你可以访问这个链接&#xff1a;官方解决方案。 如果按照【百度编辑器问题汇总】解决方案操作后&#xff0c;依然遇到“后端配置项没有正常加载&#xff0c;上传插件不能正常使用”的问题…

JL-33 手持式气象站/便携式气象站 小型气象站厂家 微型气象站

产品概述 手持式气象站是一款携带方便&#xff0c;操作简单&#xff0c;集多项气象要素于一体的可移动式气象观测仪器。产品采用传感器及芯片&#xff0c;能同时对空气温度、空气湿度、风速、风向、光照、大气压力、颗粒物、噪声等要素进行准确测量、记录并存储。仪器带有机械…

未对文件 xxx.ps1 进行数字签名,无法在当前系统上运行该脚本解决

无法执行PS1脚本&#xff1a; 解决方法: 启用远程签名策略 set-ExecutionPolicy RemoteSigned 启用签名策略后&#xff0c;成功执行ps1脚本 解决方法2: 使用当前用户签名策略&#xff1a; Set-ExecutionPolicy -Scope CurrentUser RemoteSigned 成功运行ps1脚本 PowerShell I…

【计算机网络】网络层(作业)

【一】 1、某主机的 IP 地址为 166.199.99.96/19。若该主机向其所在网络发送广播 IP 数据报&#xff0c; 则目的地址可以是&#xff08;D&#xff09;。 A. 166.199.99.255B. 166.199.96.255C. 166.199.96.0D. 166.199.127.255 解析&#xff1a; 166.199.99.96/19166.199.0…

【FPGA】STA静态时序分析

文章目录 一.定义二.分类1. 静态时序分析2. 静态时序分析 三. 概念四. 时间余量1.场景2.建立时间余量3.保持时间余量 一.定义 时序分析:检查电路是否满足时序要求&#xff1b; 二.分类 1. 静态时序分析 STA,遍历所有的时序路径&#xff0c;根据时序库&#xff08;.lib文件&…