最近武汉发现新型肺炎2019-nCov牵动着大家的心,药店里的口罩就和酒精也是抢购一空。本文将通过对百度资讯中,以“肺炎”一词作为关键词,检索出来所有新闻标题和新闻摘要进行分析,了解新型肺炎相关新闻在互联网上的传播情况。

本文使用的工具:
- 编程:Python;爬虫:Scrapy;中文分词:jieba
- Excel生成图表、wordclouds生成词云
数据源:百度资讯、百度指数
1. 新闻采集

通过百度资讯,搜索“肺炎”一词,将所有搜索结果收集起来,并且对新闻内容进行去重。去重标准是同一天、同一个新闻媒体、同一个标题、同一个摘要时,将重复内容去除。
2. 初步统计
简单的对12月起,每天肺炎相关新闻的数量用excel进行了简单的统计。截止到1月23日下午,去重后,共检索到424条新闻。

近期最早新闻中出现“肺炎”的字眼,是在2019年12月31日,接着逐渐消退,1月3号再次出现一波小热潮,然后完全消退。
第二波大热潮是在2020年1月9日左右,但是热潮很快又退了下去。
直到2020年1月16日,肺炎新闻才开始爆发性增长,然后经历1月19日的一个小低谷后,热度迅速上升。大家的感受也应该是在1月20日左右,就发现各种微信群消息里,开始大量的转发武汉发现新型肺炎相关的消息吧。
通过百度指数搜索全网对“肺炎”这个关键词的搜索热度,可以看出发展舆论的发展趋势,基本与新闻的数量一致。

在12月底开始出现肺炎的新闻,过了月20天后,新型肺炎的新闻才“突然间气势汹汹”的传播开来。
3. 热词分析
通过对19年12月31日、20年1月9日、20年1月16日这三个比较有标志性的日期,以及20年1月20日往后的每一天,利用NLP(Natural Language Processing,自然语言处理)的工具“jieba”,统计这些日期当天的新闻中,相对于往前日期的新闻内容,出现了哪些新的词语。
闽ICP备13000641号-4