Docx习题集
90万道小学语数外、初高中语数外政史地理化生共21科习题。
题库输出
处理完毕的题目存放于根目录/dataset_goosefs/cos_shanghai_2/ready_datasets/zh2/shiti/output
将根据处理框架的更新情况刷新题目:
- 20230722更新:
/dataset_goosefs/cos_shanghai_2/ready_datasets/zh2/shiti/output/20230722
习题总体情况
- 习题含图片约占30%,共计32万道左右,包括题干有图片、选项有图片、解答有图片(公式以图片表述、比较少用的数学符号以图片插入),这部分完全不能解析;
- 习题含公式约占20%,这部分不含图片,能使用脚本或者Pandoc软件解析;
- 选择题(单道选择题约占总数60%,多道选择题约占总数20%),填空题约占10%,简答题和作文题共计占10%,总共能用的题目约61万道。
- 目前尚未发现不能转换的docx格式,仅转换了所有习题中的docx文件,未转换doc格式的文件(占比小于5%,转换较为复杂,尚未研究明白)。
习题转换项目
- 将docx直接转换为格式化的html项目链接:https://github.com/zlqm/docx-equation,说明:该项目仅保留word原生公式编辑器公式的格式,其他文本的全部格式都将被舍弃,转换过程中将该项目源码集成至本项目。
- 开源转换软件pandoc,下载命令
apt install pandoc
,使用命令pandoc -f docx /path/to/docxfile -o /path/to/htmlfile
,该软件不能够将word原生公式编辑器的公式转换为tex格式,但是能够保留原生的文本格式,诸如下划线、波浪线和下划点等等,该项目暂未使用。 - 转换结果以text,meta格式存储,目前提取了以下信息:
1 | { |
其中,text字段的内容格式如下(为了便于查看格式,已将全部换行符\n更改为回车换行):
1 | Query: 氢氟酸是一种弱酸,可用来刻蚀玻璃.已知25℃时: |
meta字段均来自文件名的解析,resolution是该题目的题解,如果没有解析部分,该字段为空,type字段是对文本text的解析,包括了multiple-choice,short-answer和gap-filling三种类型。
主要实现思路
- 保留尽可能多的源格式,经过实验,证实pandoc转换对格式的损失非常大,不能直接用作转换软件;
- 尽量把常见的数学符号都使用tex语法表示,正文中除了中文字符和常见的中文符号(,。?!——……“:;’·)以外,尽量使用tex表示非ascii码字符。
部分转换问题
- 在语文简答题中,大量存在对原文的标注:例如“下列各项对原文划波浪线句子赏析正确的是”、“文中加点的词语的意义解释正确的是”等题干,而直接使用上述项目转换后,丢失了大量的格式化标注,保留该格式化标注需要在源码中去修改
XLS
文件,较为复杂。现已知woodyclean会对text字符串去除网页标签和不能解析的字符,而网页标签和tex代码是题目的重要部分,是否有必要保留这些标签和字符? - 0722发现问题:部分题目转换后产生重复现象,即题干反复出现两次,仅见于以”[题文]”开头的题目中
- 化学方程式中,等号上方带有中文,这部分转换失败,相当一部分原因是原题的格式就不对,如下图所示,另一部分还在考虑修改中。
评论