本文作者将使用多种文本挖掘方法,来分析《全唐诗》。篇幅略长,请耐心阅读^_^
楔子
近些年来,弘扬中华传统文化的现象级综艺节目不断涌现,如《中国汉字听写大会》、《中国成语大会》、《中国谜语大会》、《中国诗词大会》等,其背后的社会成因,在于人们对中国文化中最精致文字的膜拜心理,虽然浸淫于层出不穷的网络语汇,时时面临“语言荒漠”的窘境,仍心向往之。
上述节目中,笔者最感兴趣的还是《中国诗词大会》—通过对诗词知识的比拼及赏析,带动全民重温那些曾经学过的古诗词,分享诗词之美,感受诗词之趣,从古人的智慧和情怀中汲取营养,涵养心灵。
由于在新浪微舆情从事的是语义分析产品方面的工作,平时用到很多文本挖掘的方法。所以,笔者想从文本(数据)挖掘的角度去“探索”全唐诗,挑战一些不同场景下(现代汉语和古汉语)文本处理和分析的异同点,锤炼自己的分析技能;但更想做的是,结合数据之美和诗歌之雅,用跨界思维去发现一些有趣的东西。
在这里,笔者分析的语料是《全唐诗》,它编校于清康熙四十四年(1705年),得诗四万八千九百余首。
接下来,笔者将使用多种文本挖掘方法,来分析《全唐诗》。
以下是本文的行文脉络:

0 文本预处理
对于古汉语(文言文),尤其是诗词的分词处理可不简单,因为单字词占古汉语词汇统计信息的80%以上,再加上古汉语微言大义,字字千钧,所以针对现代汉语的分词技术往往不适用于它。鉴于此种情况,笔者采取的是逐字切分的处理方式,同时去掉一些常见的虚词,如“之”、“乎”、“者”、“也”。分词和去停用词处理如下所示:


经过文本预处理后,就可以进行文本挖掘中最常规的分析—字频统计,看看《全唐诗》中出现最多的字有哪些。
闽ICP备13000641号-4