900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > TNEWS今日头条中文新闻(短文本)分类

TNEWS今日头条中文新闻(短文本)分类

时间:2023-03-27 08:19:25

相关推荐

TNEWS今日头条中文新闻(短文本)分类

数据分析:

数据分布情况:占比例多少文本 :一句话多长。截断处理。 平均50个字<=110词。(分完词的长度)

多分类: (代码可复现)

方法一:6个二分类器。一条句子分别跑6个模型,分最高,选哪个。(效果好)

方法二:一个模型直接预测出属于哪类。

决策树,SVM,

TNEWS’ 今日头条中文新闻(短文本)分类 Short Text Classificaiton for News

数据集

数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。

数据量:训练集(53,360),验证集(10,000),测试集(10,000)

训练集

Train.json:

<label分类,label_desc分类名称,sentence新闻字符串>

例子:

{“label”: “108”, “label_desc”: “news_edu”, “sentence”: “上课时学生手机响个不停,老师一怒之下把手机摔了,家长拿发票让老师赔,大家怎么看待这种事?”, “keywords”: “”}

labels.json:

<label分类,label_desc分类名称>

验证集

dev.json

<label,label_desc,sentence,keywords关键词>

例子:

{“label”: “102”, “label_desc”: “news_entertainment”, “sentence”: “江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物”, “keywords”: “江疏影,美少女,经纪人,甜甜圈”}

测试集

Test.json:

<id,sentence新闻字符串,keywords关键词>

例子:

{“id”: 0, “sentence”: “在设计史上,每当相对稳定的发展时期,这种设计思想就会成为主导”, “keywords”: “民族性,设计思想,继承型设计,复古主义,服装史”}

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。