5.6T杂项文件
公众号推文
5.6T原始数据目录为/mnt/cos/cos_shanghai_2/raw_datasets/mt/
和/mnt/cos/cos_shanghai_2/raw_datasets/mt/p3/p1
,均为月份标号,覆盖了从2021年11月起至2023年1月止的大量公众号、视频号推送文章,对该数据集的解压和清洗结果在以下链接中。
taobao
目录路径 /mnt/cos/cos_shanghai_2/raw_datasets/mt/taobao
目录文件类型
含有极多子文件夹,且不同的子文件夹内装有的文件类型也不同,下表是全部子文件夹中,装有的全部类型的文件数量和文件大小,没标明的文件大小在5M以下。
后缀名 | 数量 | 备注 | 文件总大小 |
---|---|---|---|
38139+60 | PDF(60个) | 117.2G+188M | |
rar | 250 | 大部分是PPT和PPT模板文件,一定数量是pdf | 69G |
zip | 117 | 大部分是pdf,夹杂有少量其他类型的文件,主要是券商的报告和医学、社会科学论文报告等 | 497G |
ppt | 90 | 104M | |
pptx | 36 | 205M | |
jpg | 56 | ||
1 | 28 | 74M | |
doc | 13 | ||
xls | 14 | ||
docx | 6 | ||
xlsx | 9 | ||
epub | 3 | ||
DS_Store | 2 | ||
xls | 3 | ||
_永不消逝的电磁波合集 | 1 | ||
_成长箴言 | 1 | ||
exe | 1 | ||
_欧洲下册 | 1 | ||
PPT | 3 | ||
_故事小说 | 1 | ||
htm | 1 | ||
_地缘 | 1 | ||
_效果预览图 | 1 | ||
_epub | 1 | mobi | 71M |
_西域下册 | 1 | ||
downloading | 1 | ||
tmp6 | 1 | ||
_毛泽东 | 1 | ||
txt | 2 | ||
_教员文集 | 1 | ||
_中东 | 1 | ||
azw3 | 1 | 34M | |
_历史人文 | 1 | ||
html | 1 | ||
_玄之又玄 | 1 | ||
_金融房产 | 1 | ||
_地图册印刷 | 1 | ||
_效果图 | 1 |
其中后缀名为中文的文件打开后为乱码,尚不了解其编码格式。
主体文件
主要能使用的文件为pdf、zip和rar文件:
-
对于全体pdf、PDF文件,其路径已经整理放到如下路径的txt文件中:
/data_turbo/home/chenbofei/code/taobao_info/taobao.pdf.txt
-
对于全体zip文件,路径位于:
/data_turbo/home/chenbofei/code/taobao_info/taobao.zip.txt
这部分zip文件内压缩的全部文件经目录查看,大部分是pdf文件,其余是txt文件和其他的jpg、rar等文件。结构极其复杂,每一个zip文件都不一样。
解压后的全体目录中在路径:
/data_turbo/home/chenbofei/code/taobao_info/taobao.zip.unzip.txt
-
对于全体rar文件,路径位于:
/data_turbo/home/chenbofei/code/taobao_info/taobao.rar.txt
解压后的全体目录中在路径:
/data_turbo/home/chenbofei/code/taobao_info/taobao.rar.unzip.txt
baidubaike / douban / zhihu
目录:/mnt/cos/cos_shanghai_2/raw_datasets/mt/p3/p1
baidubaike | douban | zhihu | |
---|---|---|---|
大小 | 265G | 20G | 243G |
子目录个数 | 277 | 25 | 262 |
text文件个数 | 4865 | 424 | 4848 |
行数 | 27,601,398 | 4,069,204 | 56,105,431 |
每一行包括如下字段:
- ‘originData’ - 压缩后的二进制
- ‘jobType’: 0
- ‘compressType’: 1
- ‘functionName’: ‘PlatformCollectDataV1’
- ‘traceId’: ‘569892e8eb6e1462cdd406baa43’
- ‘extendParams’ - dict_keys([‘__sequenceId’, ‘collectTime’, ‘code’, ‘__businessId’, ‘__groupId’, ‘dataFrom’, ‘__env’, ‘__source’, ‘message’, ‘__jobId’, ‘__seedType’, ‘__taskKey’, ‘__functionName’, ‘__companyId’, ‘__traceId’, ‘__crawlerType’, ‘__compressTag’, ‘dataSource’, ‘__taskId’, ‘__functionId’])
样本数据:
1 | { |
经测试,二进制由gzip压缩,测试代码如下:
1 | import json |
经过解压后,baidubaike / douban / zhihu 三者的内容还是不太一样的,下面分别介绍一下
douban
应该可以取 content
作为主要内容,不过里面有一些 html 标签,样本如下:
1 | <div id='content'>不知,小伙伴们注意没有片头有一行字(每次翻译组都会敬业地译出来︽⊙_⊙︽):本片是由xx(政府)支持的片子。作为医疗剧,这部剧的专业性可以打高分(编剧很用心)。<br>作为爱情剧,又温暖人心,虽然我一度想弃剧(纯爱剧现在很难让人看下去,看看隔壁任意依恋),但看到现在才发现爱情只是其中重要但不唯一的一部分:慧静与奶奶,爸爸,医生们之间,朋友之间,医生与患者都有爱的描绘。可能编剧是想把爱情包含在爱中,爱情部分的描述才如此暖心。<br>ps:有心的看客可以留意,片头带15的那张变成动图了,且每集不同,暗示重要情节噢!</div> |
另外还有一个 abstract
,去除了里面的html标签,但是有些比较长的段落,内容也被摘要了,所以不采用。
baike
content
字段不太理想,都有 相关视频查看全部
的字样,如下:
1 | 相关视频查看全部末世影行天下内容简介吴明人如其名,原本打算就如名字那般默默无名的度过这平淡的一生,怎料异变突生,突然出现的系统,说来就来的末世,以及校花突如其来的告白,让吴明只想说……末世影行天下作品目录用一个字来形容精神多了 |
html
字段存了网页源码,或可以参考我们之前的 baike 的处理方法?还是采用goose3?
zhihu
应该可以取 content
作为主要内容,不过里面有大量的 html 标签,样本如下:
1 | <p data-pid="ANT6BWV9">你要是永远在想念他的怪圈里,你永远出不来。才一个多月,想念,想挽回很正常。可是男人是天生的猎人啊,他们喜欢自己追到的,他们享受捕猎的感觉,他们喜欢新鲜感,对贴上来的女人(已经拥有过的)只会觉得厌烦。你们刚分手,你这样骚扰他,除了加剧他的厌烦,降低你的身价以外,没有任何用处。</p><p data-pid="7_lbjVvr">一年前我跟你一模一样。但是我朋友一直陪着我,我难过的时候陪我喝酒,有事没事就拉我出去玩。过了最难过的那一段后,我在想,我不能这样堕落了,再这样我只会越来越被他看不起。我开始重新振作,我健身,我旅游,我看书,我考研。我开始越来越找到了生活的乐趣,我发现没他也可以,没他我过得更好。离我分手已经快一年了,我朋友都说我好像变了一个人,我更开朗了,身材也好了,也遇到了更好的人,他不会嫌我胖,不会对我恶言恶语,不会丢下我一个人。这时候如果他回头,我也不会再看一眼,别说追回他。</p><p data-pid="UJWgYBa1">走出房间,和朋友玩,做自己喜欢的事,没有的话,就培养爱好,多读书,多看看世界,多努力努力。最多半年,你不会再想起他。</p><p data-pid="b1IAhjid">既然他都这么决绝的丢下你往前走了,你能不能为自己争口气,用力往前走?他都不要你了!别在为不值得的人折磨自己了!清醒点!!</p> |
另外还有一个 excerpt
,去除了里面的html标签,但是有些比较长的段落,内容也被摘要了,所以不采用。
zhihu还需要取问题的title
1 | question { |