数据挖掘实操｜用文本挖掘剖析近5万首《全唐诗》-数据分析-优客工作手机-外呼系统软件-AI电销机器人-微信SCRM系统-SIP通讯线路|优客AI为销售管理以及客户安数据安全而生

本文作者将使用多种文本挖掘方法，来分析《全唐诗》。篇幅略长，请耐心阅读^_^

楔子

近些年来，弘扬中华传统文化的现象级综艺节目不断涌现，如《中国汉字听写大会》、《中国成语大会》、《中国谜语大会》、《中国诗词大会》等，其背后的社会成因，在于人们对中国文化中最精致文字的膜拜心理，虽然浸淫于层出不穷的网络语汇，时时面临“语言荒漠”的窘境，仍心向往之。

上述节目中，笔者最感兴趣的还是《中国诗词大会》—通过对诗词知识的比拼及赏析，带动全民重温那些曾经学过的古诗词，分享诗词之美，感受诗词之趣，从古人的智慧和情怀中汲取营养，涵养心灵。

由于在新浪微舆情从事的是语义分析产品方面的工作，平时用到很多文本挖掘的方法。所以，笔者想从文本（数据）挖掘的角度去“探索”全唐诗，挑战一些不同场景下（现代汉语和古汉语）文本处理和分析的异同点，锤炼自己的分析技能；但更想做的是，结合数据之美和诗歌之雅，用跨界思维去发现一些有趣的东西。

在这里，笔者分析的语料是《全唐诗》，它编校于清康熙四十四年（1705年），得诗四万八千九百余首。

接下来，笔者将使用多种文本挖掘方法，来分析《全唐诗》。

以下是本文的行文脉络：

0 文本预处理

对于古汉语（文言文），尤其是诗词的分词处理可不简单，因为单字词占古汉语词汇统计信息的80％以上，再加上古汉语微言大义，字字千钧，所以针对现代汉语的分词技术往往不适用于它。鉴于此种情况，笔者采取的是逐字切分的处理方式，同时去掉一些常见的虚词，如“之”、“乎”、“者”、“也”。分词和去停用词处理如下所示：

经过文本预处理后，就可以进行文本挖掘中最常规的分析—字频统计，看看《全唐诗》中出现最多的字有哪些。

营销获客

跟进转换

老客运营

管理管控

安全备份

电销（外呼获客）

销售（管理赋能）

营销（公域获客）

风控（合规审计）

运营（代理运营）

数据挖掘实操｜用文本挖掘剖析近5万首《全唐诗》

楔子

0 文本预处理

1 字频分析：唐诗常用高频字分析

联系我们

产品介绍

解决方案

咨询优客客服

优客企业微信