文本分析_从新闻txt文本中随机选择10条新闻,提取10表关键词-CSDN博客

2024-06-05 21:02:56 体育资讯 admin

文本分析_从新闻txt文本中随机选择10条新闻,提取10表关键词-CSDN博客

概述:

本文演示了jieba中文分词组件、sklearn等库的使用,包括

新闻中停止词的剔除演示提取新闻的关键词词频统计词云图绘制对新闻进行向量化使用朴素贝叶斯算法进行新闻分类使用贝叶斯模型进行新闻分类(原理涉及到编辑距离、朴素贝叶斯算法)

jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性

支持 3 种分词模式:精确模式、全模式、搜索引擎模式支持繁体分词支持自定义词典

数据源:http://www.sogou.com/labs/resource/ca.php

分词:使用结吧分词器

文本切割:将文本内容切成一个个的词

示例:

正式执行切割任务:将content每一条记录进行文本切割

读入停止词

将文本中含有的停止词剔除,达到清洗文本的目的

将新闻数据集所有的单词存下来

统计词频

104784 rows × 2 columns

TF-IDF :提取关键词###

LDA :主题模型: 新闻分类###

格式要求:list of list形式,分词好的的整个语料

使用朴素贝叶斯算法进行新闻分类

发表评论:

网站分类
标签列表
最新留言