概述:
本文演示了jieba中文分词组件、sklearn等库的使用,包括
新闻中停止词的剔除演示提取新闻的关键词词频统计词云图绘制对新闻进行向量化使用朴素贝叶斯算法进行新闻分类使用贝叶斯模型进行新闻分类(原理涉及到编辑距离、朴素贝叶斯算法)
jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性
支持 3 种分词模式:精确模式、全模式、搜索引擎模式支持繁体分词支持自定义词典
数据源:http://www.sogou.com/labs/resource/ca.php
分词:使用结吧分词器
文本切割:将文本内容切成一个个的词
示例:
正式执行切割任务:将content每一条记录进行文本切割
读入停止词
将文本中含有的停止词剔除,达到清洗文本的目的
将新闻数据集所有的单词存下来
统计词频
104784 rows × 2 columns
TF-IDF :提取关键词###
LDA :主题模型: 新闻分类###
格式要求:list of list形式,分词好的的整个语料
使用朴素贝叶斯算法进行新闻分类