您现在的位置:   首页 >> 新闻中心 >> 数据分析

大数据分析:研究新冠肺炎的发展历程

发布人:www.yunke.ai 发布时间:2021-01-01 144 次浏览

最近武汉发现新型肺炎2019-nCov牵动着大家的心,药店里的口罩就和酒精也是抢购一空。本文将通过对百度资讯中,以“肺炎”一词作为关键词,检索出来所有新闻标题和新闻摘要进行分析,了解新型肺炎相关新闻在互联网上的传播情况。

本文使用的工具:

  • 编程:Python;爬虫:Scrapy;中文分词:jieba
  • Excel生成图表、wordclouds生成词云

数据源:百度资讯、百度指数

1. 新闻采集

通过百度资讯,搜索“肺炎”一词,将所有搜索结果收集起来,并且对新闻内容进行去重。去重标准是同一天、同一个新闻媒体、同一个标题、同一个摘要时,将重复内容去除。

2. 初步统计

简单的对12月起,每天肺炎相关新闻的数量用excel进行了简单的统计。截止到1月23日下午,去重后,共检索到424条新闻。

近期最早新闻中出现“肺炎”的字眼,是在2019年12月31日,接着逐渐消退,1月3号再次出现一波小热潮,然后完全消退。

第二波大热潮是在2020年1月9日左右,但是热潮很快又退了下去。

直到2020年1月16日,肺炎新闻才开始爆发性增长,然后经历1月19日的一个小低谷后,热度迅速上升。大家的感受也应该是在1月20日左右,就发现各种微信群消息里,开始大量的转发武汉发现新型肺炎相关的消息吧。

通过百度指数搜索全网对“肺炎”这个关键词的搜索热度,可以看出发展舆论的发展趋势,基本与新闻的数量一致。

在12月底开始出现肺炎的新闻,过了月20天后,新型肺炎的新闻才“突然间气势汹汹”的传播开来。

3. 热词分析

通过对19年12月31日、20年1月9日、20年1月16日这三个比较有标志性的日期,以及20年1月20日往后的每一天,利用NLP(Natural Language Processing,自然语言处理)的工具“jieba”,统计这些日期当天的新闻中,相对于往前日期的新闻内容,出现了哪些新的词语。