背景
由于目前没有公开的免费的中文短文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开,所有人都可以免费下载使用,希望能成为一个有用的中文短文本摘要数据集。
英文名称
Chinese Short Text Summarization Dataset
收集方式
数据来源于新浪微博主流媒体发布的微博。
例如:
微博示例一
微博示例二
微博示例三
如上的三条微博所示中,红框中的文本作为短文本的摘要,其他的内容作为短文本的内容。
数据量
在这个版本中,一共 679898 条数据,分为两个文件:
文件名称 | 说明 |
---|---|
train_text.txt | 短文本的内容,约100-200字 |
train_label.txt | 短文本的摘要,约10-20字 |
下载方式
百度网盘:https://pan.baidu.com/s/1NWe6K33GMTp4Wk7CwaGotA
密码:4k12
Cite as:
{
Author: He Zhengfang
Dataset Name: Chinese Short Text Summarization Dataset
Publish Date: 20th June, 2018.
}
作者:Funzion
链接:https://www.jianshu.com/p/8f52352f0748
点击查看更多内容
为 TA 点赞
评论
共同学习,写下你的评论
评论加载中...
作者其他优质文章
正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦