MNBVC数据集来源汇总
本汇总来自于本汇总来自于MNBVC数据文件下,含有links.txt文件的文件夹的hugging face、悟道和oscar数据集
hugging face数据集:约4GB
https://huggingface.co/datasets/miracl/miracl-corpus
https://huggingface.co/datasets/wangrui6/Zhihu-KOL
OSCAR数据集:约30G
https://huggingface.co/datasets/oscar-corpus/OSCAR-2201
悟道数据集:约1.9GB
北京智源人工智能研究院 (baai.ac.cn)
本汇总来自于MNBVC数据文件下,含有links.txt文件的文件夹,去除了来自hugging face、悟道和oscar数据集
北理工张华平实验室数据集:共有约3.5GB
http://www.nlpir.org/wordpress/2017/07/13/nlpir新闻语料库-2400万字/
http://www.nlpir.org/wordpress/2017/10/0 ...
百度云OCR测试
百度云OCR介绍
Untitled
办公文档识别接口:https://ai.baidu.com/tech/ocr/doc_analysis_office
接口调用说明: https://ai.baidu.com/ai-doc/OCR/ykg9c09ji
重点关心正文提取能力:版面分析+文字识别能力。
中文和繁体中文
测试case覆盖:包含多栏、公式、页眉页脚、图片/表格等复杂版面。
评价标准:版面检测准确率,文字识别准确率。
测试结果:
注音文本
版面检测:较为准确,图片全部识别,正文文本类型全部正确检测,标题误判定为正文。
侧栏页码检测位置置于文本内
文字识别准确率:中文文本全部识别正确,极个别注音字符识别错误,总体准确率99%以上。
中文期刊文章
版面检测:能正确检测标题、页眉、脚注、页码等信息,正文检测正确,对于期刊这种高度格式化的文本图像,检测效果很好。
文本识别:上标识别出错,其余文字识别正确,正文文本识别正确率99%以上。
两栏文本
版面检测:能正确检测出页眉和小标题,能检测出两栏文本但是没有将其按栏分开,而是两栏交错地放在一起,不能检测出数学公式。 ...
事件相机应用最新进展
前言
江老师既然已经给定了选题,咱也不要犹豫了,犹豫就会败北,赶快开始准备综述材料和积累与运用吧!
在写作每周的综述报告时,虽然老师没有要求,自己还是要严格对待,至少要包括这些内容:主要看了什么内容,用一句话概括一下。技术应用型论文,侧重介绍方法和实施手段,特别是算法设计上。理论研究型论文,侧重介绍理论推导和关键技巧。
两种论文,都要以能够找出其不足和缺点作为论文阅读的终极目标,当然也不需要按图索骥,慢慢积累,水到自然渠成。可惜分身乏术,不然还能分个身出来复现一下它们的算法和结果,如果能做到那就实在是太厉害了。
2023/10/23 当周进展
本周论文概览
本周一共看了6篇文献,其中4篇都是同一个类型(讲STDP生理学基础的)所以归作一篇文献,另外两篇是事件相机在无人机领域的应用,两篇都是避障,第一篇是动态避障,另一篇是静态避障,两篇都用了YOLO检测模型。
第一篇文献
文献名:基于动态视觉传感器的无人机目标检测与避障
北航学报
解决的问题
无人机在动态和静态两种情况下检测出篮球并实施躲避。
采用的方法
事实上是多传感器融合,如下图:
有关事件相机的处理时,采取的方法实际上选用事件图 ...
终于考完了
考试结束
12月27号,本科期间的最后一堂考试缓缓落下帷幕,没想到居然是一门闭卷考试。考试科目《制导与控制》是仪器专业的特色课程,全程讲的是坐标系变换和姿态控制,令人眼花缭乱的变换矩阵,花里胡哨的矢量运算,学的时候是一点也没有学明白,但是复习完了感觉,跟《惯性器件原理》一样,都还是能有收获的。至少再次温习了一波坐标系变换的公式。
令人喜悦的latex模板
另一个很棒的收获是,终于搭出了一个属于我的latex模板,可惜搭得太晚了,最后两次大作业总算也是派上了用场。非常推荐里面的tikz宏包,画出来的矢量图确实很好看,修改起来也比我以前一直用的ppt要方便许多,不过也是一贯的跟latex一样的德性,上手门槛过于高,弄明白这个环境都费了好久
Deutsch的瓶颈
自从还在学校的11月中旬起,就因为封校的原因不再学习过德语的语法,仅仅保持着每天背单词的习惯。现在背到这里,光看单词意思还是知道,但是始终看不懂一个完整的句子,自己也不能利用学到的单词造句。学习到这里也快进入瓶颈了,怎么得也要会造句子呢,哪怕是极其不地道也行呢,正语序反语序,倒底什么时候该用什么语序,始终没有弄清楚过,这个问题还有 ...
Hallo Welt!
这是某位小白的第一篇githubio的博客,不得不说确实是被这个博客美观的造型吸引过来了。
初步计划的博客内容安排
项目
内容
时间规划
更新频率
备注
日记部分
想写啥写啥
近期
随机
德语学习
学习的语法知识
12月20号以后
每周一更
事件相机
主要是事件相机图像检测算法
期末考试以后
争取每周一更
==flag一般立起来就是准备倒的,希望都能做到🙏==
当然当务之急还是先学习学习如何搭建一个美观的博客,毕竟作为强迫症晚期患者,一个不漂亮的界面实在是令人发指。