现有脉冲网络框架
前言
脉冲神经网络不像深度神经网络那样,有非常成熟的训练框架如torch,tensorflow或者国内如oneflow,paddle等,在不带其他依赖包的前提下可以完成独立训练、推理以至部署。本博客的目的在于,收集整理现有的全部脉冲神经网络(说是全部其实言过其实,我压根就没看过几篇),从这些网络的搭建中学习设计思想,运用这部分网络完成自己的研究工作,或是为将来的框架发展做出自己的贡献。
目录
SLAYER框架
Version 1
SLAYER框架
由新加坡国立大学Garrick Orchard团队设计搭建的脉冲神经网络,目前已经迭代两个版本,首先介绍版本1。
Version 1
本框架的基本原理是:使用替代梯度完成对脉冲网络的训练。文献名:SLAYER: Spike Layer Error Reassignment in Time
神经元模型
本文选用的脉冲神经元模型是脉冲响应模型Spike Response Model(SRM),其核心的数学表达式为:输入至膜上的电位脉冲ai(t)a_i(t)ai(t)等于输入脉冲si(t)s_i(t)si(t)与膜响应函数ε(t)\v ...
5.6T杂项文件
公众号推文
5.6T原始数据目录为/mnt/cos/cos_shanghai_2/raw_datasets/mt/ 和/mnt/cos/cos_shanghai_2/raw_datasets/mt/p3/p1 ,均为月份标号,覆盖了从2021年11月起至2023年1月止的大量公众号、视频号推送文章,对该数据集的解压和清洗结果在以下链接中。
5.6T数据解压
taobao
目录路径 /mnt/cos/cos_shanghai_2/raw_datasets/mt/taobao
目录文件类型
含有极多子文件夹,且不同的子文件夹内装有的文件类型也不同,下表是全部子文件夹中,装有的全部类型的文件数量和文件大小,没标明的文件大小在5M以下。
后缀名
数量
备注
文件总大小
pdf
38139+60
PDF(60个)
117.2G+188M
rar
250
大部分是PPT和PPT模板文件,一定数量是pdf
69G
zip
117
大部分是pdf,夹杂有少量其他类型的文件,主要是券商的报告和医学、社会科学论文报告等
497G
ppt
90
104M
pptx
36
2 ...
Docx习题集
90万道小学语数外、初高中语数外政史地理化生共21科习题。
题库输出
处理完毕的题目存放于根目录/dataset_goosefs/cos_shanghai_2/ready_datasets/zh2/shiti/output 将根据处理框架的更新情况刷新题目:
20230722更新:/dataset_goosefs/cos_shanghai_2/ready_datasets/zh2/shiti/output/20230722
习题总体情况
习题含图片约占30%,共计32万道左右,包括题干有图片、选项有图片、解答有图片(公式以图片表述、比较少用的数学符号以图片插入),这部分完全不能解析;
习题含公式约占20%,这部分不含图片,能使用脚本或者Pandoc软件解析;
选择题(单道选择题约占总数60%,多道选择题约占总数20%),填空题约占10%,简答题和作文题共计占10%,总共能用的题目约61万道。
目前尚未发现不能转换的docx格式,仅转换了所有习题中的docx文件,未转换doc格式的文件(占比小于5%,转换较为复杂,尚未研究明白)。
习题转换项目
将docx直接转换为格式化的h ...
Google Coding代码数据集
数据集文件存储位置
/mnt/cos/cos_shanghai_1/raw_datasets/google_coding
解压缩并提取数据库文件后的数据集文件存储位置如下:
/mnt/cos/cos_shanghai_1/raw_datasets/google_coding/google_coding_unzip
数据集文件schema
每个文件夹中有两个数据库文件raw_data.sqlar和solutions.sqlar,其余为样例数据和测试数据。其中每个数据库文件的存储格式如下,
1234567CREATE TABLE sqlar( name TEXT PRIMARY KEY, -- name of the file mode INT, -- access permissions mtime INT, -- last modification time sz INT, -- original file size data BLOB -- compresse ...
MNBVC数据集来源汇总
本汇总来自于本汇总来自于MNBVC数据文件下,含有links.txt文件的文件夹的hugging face、悟道和oscar数据集
hugging face数据集:约4GB
https://huggingface.co/datasets/miracl/miracl-corpus
https://huggingface.co/datasets/wangrui6/Zhihu-KOL
OSCAR数据集:约30G
https://huggingface.co/datasets/oscar-corpus/OSCAR-2201
悟道数据集:约1.9GB
北京智源人工智能研究院 (baai.ac.cn)
本汇总来自于MNBVC数据文件下,含有links.txt文件的文件夹,去除了来自hugging face、悟道和oscar数据集
北理工张华平实验室数据集:共有约3.5GB
http://www.nlpir.org/wordpress/2017/07/13/nlpir新闻语料库-2400万字/
http://www.nlpir.org/wordpress/2017/10/0 ...
百度云OCR测试
百度云OCR介绍
Untitled
办公文档识别接口:https://ai.baidu.com/tech/ocr/doc_analysis_office
接口调用说明: https://ai.baidu.com/ai-doc/OCR/ykg9c09ji
重点关心正文提取能力:版面分析+文字识别能力。
中文和繁体中文
测试case覆盖:包含多栏、公式、页眉页脚、图片/表格等复杂版面。
评价标准:版面检测准确率,文字识别准确率。
测试结果:
注音文本
版面检测:较为准确,图片全部识别,正文文本类型全部正确检测,标题误判定为正文。
侧栏页码检测位置置于文本内
文字识别准确率:中文文本全部识别正确,极个别注音字符识别错误,总体准确率99%以上。
中文期刊文章
版面检测:能正确检测标题、页眉、脚注、页码等信息,正文检测正确,对于期刊这种高度格式化的文本图像,检测效果很好。
文本识别:上标识别出错,其余文字识别正确,正文文本识别正确率99%以上。
两栏文本
版面检测:能正确检测出页眉和小标题,能检测出两栏文本但是没有将其按栏分开,而是两栏交错地放在一起,不能检测出数学公式。 ...
事件相机应用最新进展
前言
江老师既然已经给定了选题,咱也不要犹豫了,犹豫就会败北,赶快开始准备综述材料和积累与运用吧!
在写作每周的综述报告时,虽然老师没有要求,自己还是要严格对待,至少要包括这些内容:主要看了什么内容,用一句话概括一下。技术应用型论文,侧重介绍方法和实施手段,特别是算法设计上。理论研究型论文,侧重介绍理论推导和关键技巧。
两种论文,都要以能够找出其不足和缺点作为论文阅读的终极目标,当然也不需要按图索骥,慢慢积累,水到自然渠成。可惜分身乏术,不然还能分个身出来复现一下它们的算法和结果,如果能做到那就实在是太厉害了。
2023/10/23 当周进展
本周论文概览
本周一共看了6篇文献,其中4篇都是同一个类型(讲STDP生理学基础的)所以归作一篇文献,另外两篇是事件相机在无人机领域的应用,两篇都是避障,第一篇是动态避障,另一篇是静态避障,两篇都用了YOLO检测模型。
第一篇文献
文献名:基于动态视觉传感器的无人机目标检测与避障
北航学报
解决的问题
无人机在动态和静态两种情况下检测出篮球并实施躲避。
采用的方法
事实上是多传感器融合,如下图:
有关事件相机的处理时,采取的方法实际上选用事件图 ...
终于考完了
考试结束
12月27号,本科期间的最后一堂考试缓缓落下帷幕,没想到居然是一门闭卷考试。考试科目《制导与控制》是仪器专业的特色课程,全程讲的是坐标系变换和姿态控制,令人眼花缭乱的变换矩阵,花里胡哨的矢量运算,学的时候是一点也没有学明白,但是复习完了感觉,跟《惯性器件原理》一样,都还是能有收获的。至少再次温习了一波坐标系变换的公式。
令人喜悦的latex模板
另一个很棒的收获是,终于搭出了一个属于我的latex模板,可惜搭得太晚了,最后两次大作业总算也是派上了用场。非常推荐里面的tikz宏包,画出来的矢量图确实很好看,修改起来也比我以前一直用的ppt要方便许多,不过也是一贯的跟latex一样的德性,上手门槛过于高,弄明白这个环境都费了好久
Deutsch的瓶颈
自从还在学校的11月中旬起,就因为封校的原因不再学习过德语的语法,仅仅保持着每天背单词的习惯。现在背到这里,光看单词意思还是知道,但是始终看不懂一个完整的句子,自己也不能利用学到的单词造句。学习到这里也快进入瓶颈了,怎么得也要会造句子呢,哪怕是极其不地道也行呢,正语序反语序,倒底什么时候该用什么语序,始终没有弄清楚过,这个问题还有 ...
Hallo Welt!
这是某位小白的第一篇githubio的博客,不得不说确实是被这个博客美观的造型吸引过来了。
初步计划的博客内容安排
项目
内容
时间规划
更新频率
备注
日记部分
想写啥写啥
近期
随机
德语学习
学习的语法知识
12月20号以后
每周一更
事件相机
主要是事件相机图像检测算法
期末考试以后
争取每周一更
==flag一般立起来就是准备倒的,希望都能做到🙏==
当然当务之急还是先学习学习如何搭建一个美观的博客,毕竟作为强迫症晚期患者,一个不漂亮的界面实在是令人发指。