公众号推文

5.6T原始数据目录为/mnt/cos/cos_shanghai_2/raw_datasets/mt//mnt/cos/cos_shanghai_2/raw_datasets/mt/p3/p1 ,均为月份标号,覆盖了从2021年11月起至2023年1月止的大量公众号、视频号推送文章,对该数据集的解压和清洗结果在以下链接中。

5.6T数据解压

taobao

目录路径 /mnt/cos/cos_shanghai_2/raw_datasets/mt/taobao

目录文件类型

含有极多子文件夹,且不同的子文件夹内装有的文件类型也不同,下表是全部子文件夹中,装有的全部类型的文件数量和文件大小,没标明的文件大小在5M以下

后缀名 数量 备注 文件总大小
pdf 38139+60 PDF(60个) 117.2G+188M
rar 250 大部分是PPT和PPT模板文件,一定数量是pdf 69G
zip 117 大部分是pdf,夹杂有少量其他类型的文件,主要是券商的报告和医学、社会科学论文报告等 497G
ppt 90 104M
pptx 36 205M
jpg 56
1 28 74M
doc 13
xls 14
docx 6
xlsx 9
epub 3
DS_Store 2
xls 3
_永不消逝的电磁波合集 1
_成长箴言 1
exe 1
_欧洲下册 1
PPT 3
_故事小说 1
htm 1
_地缘 1
_效果预览图 1
_epub 1 mobi 71M
_西域下册 1
downloading 1
tmp6 1
_毛泽东 1
txt 2
_教员文集 1
_中东 1
azw3 1 34M
_历史人文 1
html 1
_玄之又玄 1
_金融房产 1
_地图册印刷 1
_效果图 1

其中后缀名为中文的文件打开后为乱码,尚不了解其编码格式。

主体文件

主要能使用的文件为pdf、zip和rar文件:

  • 对于全体pdf、PDF文件,其路径已经整理放到如下路径的txt文件中:/data_turbo/home/chenbofei/code/taobao_info/taobao.pdf.txt

  • 对于全体zip文件,路径位于:/data_turbo/home/chenbofei/code/taobao_info/taobao.zip.txt

    这部分zip文件内压缩的全部文件经目录查看,大部分是pdf文件,其余是txt文件和其他的jpg、rar等文件。结构极其复杂,每一个zip文件都不一样。

    解压后的全体目录中在路径:

    /data_turbo/home/chenbofei/code/taobao_info/taobao.zip.unzip.txt

  • 对于全体rar文件,路径位于:/data_turbo/home/chenbofei/code/taobao_info/taobao.rar.txt

    解压后的全体目录中在路径:

    /data_turbo/home/chenbofei/code/taobao_info/taobao.rar.unzip.txt

baidubaike / douban / zhihu

目录:/mnt/cos/cos_shanghai_2/raw_datasets/mt/p3/p1

baidubaike douban zhihu
大小 265G 20G 243G
子目录个数 277 25 262
text文件个数 4865 424 4848
行数 27,601,398 4,069,204 56,105,431

每一行包括如下字段:

  • ‘originData’ - 压缩后的二进制
  • ‘jobType’: 0
  • ‘compressType’: 1
  • ‘functionName’: ‘PlatformCollectDataV1’
  • ‘traceId’: ‘569892e8eb6e1462cdd406baa43’
  • ‘extendParams’ - dict_keys([‘__sequenceId’, ‘collectTime’, ‘code’, ‘__businessId’, ‘__groupId’, ‘dataFrom’, ‘__env’, ‘__source’, ‘message’, ‘__jobId’, ‘__seedType’, ‘__taskKey’, ‘__functionName’, ‘__companyId’, ‘__traceId’, ‘__crawlerType’, ‘__compressTag’, ‘dataSource’, ‘__taskId’, ‘__functionId’])

样本数据:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
{
"originData": "H4sIAJlDVWQC/+...mFwAAA==", # 压缩后的二进制数据
"jobType": 0,
"compressType": 1,
"functionName": "PlatformCollectDataV1",
"traceId": "569892e8eb6e1462cdd406baa43",
"extendParams": {
"__sequenceId": "6",
"collectTime": "1683133256",
"code": "20",
"__businessId": "10009",
"__groupId": "7023",
"dataFrom": "baidubaike_20230504_03",
"__env": "prod",
"__source": "4",
"message": "succ",
"__jobId": "195",
"__seedType": "1",
"__taskKey": "",
"__functionName": "PlatformCollectDataV1",
"__companyId": "1034",
"__traceId": "569892e8eb6e1462cdd406baa43",
"__crawlerType": "2",
"__compressTag": "1",
"dataSource": "baidubaike",
"__taskId": "209",
"__functionId": "167"
}
}

经测试,二进制由gzip压缩,测试代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
import json
import gzip
import base64

filepath = "/mnt/cos/cos_shanghai_2/raw_datasets/mt/p3/p1/baidubaike/2023041218/part-0-674.text"
with open(filepath, 'r') as file:
for line in file:
json_obj = json.loads(line)
compressed = json_obj["originData"]
decoded_data = base64.b64decode(compressed)
uncompressed_data = gzip.decompress(decoded_data)
print(uncompressed_data.decode())
break

经过解压后,baidubaike / douban / zhihu 三者的内容还是不太一样的,下面分别介绍一下

douban

应该可以取 content 作为主要内容,不过里面有一些 html 标签,样本如下:

1
<div id='content'>不知,小伙伴们注意没有片头有一行字(每次翻译组都会敬业地译出来︽⊙_⊙︽):本片是由xx(政府)支持的片子。作为医疗剧,这部剧的专业性可以打高分(编剧很用心)。<br>作为爱情剧,又温暖人心,虽然我一度想弃剧(纯爱剧现在很难让人看下去,看看隔壁任意依恋),但看到现在才发现爱情只是其中重要但不唯一的一部分:慧静与奶奶,爸爸,医生们之间,朋友之间,医生与患者都有爱的描绘。可能编剧是想把爱情包含在爱中,爱情部分的描述才如此暖心。<br>ps:有心的看客可以留意,片头带15的那张变成动图了,且每集不同,暗示重要情节噢!</div>

另外还有一个 abstract,去除了里面的html标签,但是有些比较长的段落,内容也被摘要了,所以不采用。

baike

content 字段不太理想,都有 相关视频查看全部 的字样,如下:

1
相关视频查看全部末世影行天下内容简介吴明人如其名,原本打算就如名字那般默默无名的度过这平淡的一生,怎料异变突生,突然出现的系统,说来就来的末世,以及校花突如其来的告白,让吴明只想说……末世影行天下作品目录用一个字来形容精神多了

html 字段存了网页源码,或可以参考我们之前的 baike 的处理方法?还是采用goose3?

zhihu

应该可以取 content 作为主要内容,不过里面有大量的 html 标签,样本如下:

1
<p data-pid="ANT6BWV9">你要是永远在想念他的怪圈里,你永远出不来。才一个多月,想念,想挽回很正常。可是男人是天生的猎人啊,他们喜欢自己追到的,他们享受捕猎的感觉,他们喜欢新鲜感,对贴上来的女人(已经拥有过的)只会觉得厌烦。你们刚分手,你这样骚扰他,除了加剧他的厌烦,降低你的身价以外,没有任何用处。</p><p data-pid="7_lbjVvr">一年前我跟你一模一样。但是我朋友一直陪着我,我难过的时候陪我喝酒,有事没事就拉我出去玩。过了最难过的那一段后,我在想,我不能这样堕落了,再这样我只会越来越被他看不起。我开始重新振作,我健身,我旅游,我看书,我考研。我开始越来越找到了生活的乐趣,我发现没他也可以,没他我过得更好。离我分手已经快一年了,我朋友都说我好像变了一个人,我更开朗了,身材也好了,也遇到了更好的人,他不会嫌我胖,不会对我恶言恶语,不会丢下我一个人。这时候如果他回头,我也不会再看一眼,别说追回他。</p><p data-pid="UJWgYBa1">走出房间,和朋友玩,做自己喜欢的事,没有的话,就培养爱好,多读书,多看看世界,多努力努力。最多半年,你不会再想起他。</p><p data-pid="b1IAhjid">既然他都这么决绝的丢下你往前走了,你能不能为自己争口气,用力往前走?他都不要你了!别在为不值得的人折磨自己了!清醒点!!</p>

另外还有一个 excerpt,去除了里面的html标签,但是有些比较长的段落,内容也被摘要了,所以不采用。

zhihu还需要取问题的title

1
2
3
4
5
6
7
8
9
10
question {
"created": 1596552034,
"id": 412082849,
"question_type": "normal",
"relationship": {},
"title": "中考离重点班差一分,是选择靠关系进重点班还是普通班?",
"type": "question",
"updated_time": 1596552034,
"url": "https://www.zhihu.com/api/v4/questions/412082849"
}