使用IDM下载谷歌云盘资料
前言
因为众所周知的原因,从国内下载谷歌云盘上的大文件(例如超过10G的文件),通常是一件麻烦的事,谷歌云盘的下载还动不动就显示网络断连,稍不注意就下载失败。经过了好一番折腾,总算找到了如何科学下载谷歌云盘上的文件的方法了,前提是必须要使用Internet Download Manager(IDM)这款下载工具。
配置方法
配置系统代理
如下图,找到IDM的代理配置页,输入符合自己代理地址和监听端口的内容:
添加文件类型
IDM会对某些特定的文件类型进行强制接管,如下图所示:
如果在谷歌云盘上下载的模型文件或者数据集文件的后续不在列表中,可自行添加,例如常用的ckpt和pt等类型,如有其他需要,请自行添加。
添加用户授权
理论上通过以上两步就能够完成IDM对下载请求的自动接管,但是部分情况下接管失败,仍然是浏览器自动下载,则此时应当在IDM中显式增加用户在特定网址的授权,如下图所示:
浏览器配置Cookie
此外还需要在浏览器上配置Cookie,以避免谷歌云盘的下载限制,以Edge浏览器为例,打开以下界面,增加一项规则,输入谷歌云盘所在的网址https://drive.googl ...
更改Markdown PDF输出的数学公式字体
本人作为强迫症重症患者,花费一整个下午晚上用于格式调整和风格优化的事情没有少做,今天分享一个新学到的知识:修改VS code插件>Markdown-PDF的数学公式字体。(使用typora的同志请不用往下看了,是我不配了)
Markdown-PDF插件安装
这个有手就行,在VScode插件市场里面搜索这个名字,点击“install”就大功告成。该插件可以较为方便地将VScode上面的.md文件输出为PDF文件
修改Markdown-PDF输出风格
找到文件夹~\yzane.markdown-pdf-1.4.4\styles,一般跟你的VScode插件是放在一起的,里面只有两个默认的.css文件:markdown-pdf.css和markdown.css,当然它俩控制下的输出风格确实一言难尽(还有点点日文的感觉),还不兼容公式,这里推荐一个风格文件下载站点
把其中找到好看的风格文件.css下载到刚才的styles文件夹里面,然后在VScode的插件设计里面把这一行更改为设计的风格文件路径:
修改Markdown-PDF输出公式数学字体
找到文件夹~\yzane.markdown ...
装机配置清单
个人倾向
考虑用上全部工资和奖学金,预算为1.6w左右,考虑配置一个丐版4090。
价格清单
显示器2000元争取让江老师报销
键盘鼠标300元以内能解决,控制总价在1万元以内
机箱显卡总长限长 34cm
机箱CPU散热器限高 185mm
配置如下:
模块
厂商
价格(元)
功率(W)
CPU
intel i5 13400
1300
65
GPU
PNY RTX 4070Ti 24G
5522
289
SSD
Solidigium P44 Pro 1TB
501
–
SSD
光威弈Pro 4TB
1084
–
主板
华硕 B760M-K
675(板u套装共1975)
–
RAM
金百达银爵 32GB D4 3200MHz
389
–
散热
利民 PA120SE
143
–
电源
长城 G11金牌 1100W ATX3.0
749(含退货费)
–
机箱
先马 朱雀AIR
165
–
网卡
Comfast AX200 蓝牙5.2带屏蔽罩
107
–
总计
10675
400
总功率为400×1.5=600<<1100 ...
Butterfly风格调教
写在前面
一直心心念念butterfly搭的网站公式字体不好看(原始字体应该是Latin Modern Roman),又苦于前端知识拮据,没有办法从根本上解决,时间一久自己把这事也给忘了,直到…
直到前天更新了一波矩阵论的笔记(起因是实习同事问了一句矩阵导数怎么求,推了半天没有推出来,然后走火入魔,花了两天时间把这一大堆东西全部自己证了一遍才心满意足),方才又想起来了这个问题,所幸,这次总算解决了。
配置步骤
言归正传,经过数据流分析,查阅到原始代码使用的是远程网站的字体库和css伪类文件,因此在本地文件夹中找不到fonts文件夹,也没有CSS伪类文件,可通过修改渲染路径的方式,将本地字体发送到github的Actions服务器内实现字体自定义。
存放字体文件
找到themes文件夹,即存放butterfly工程文件夹的上级,进入网站的工作文件夹themes/butterfly/source,在这里存放字体库和CSS类文件,这个文件夹可以在已经安装的katex软件目录中找到,一般存储于hexo根目录下的node_modules\katex\dist,当然,偷懒也可以运行以下命令,可以一 ...
Docker安装PX4+Gazebo安装与仿真心得
前言
Ubuntu22.04->Ubuntu20.04->Ubuntu22.04->Ubunut20.04
关于这个软件的配置和安装,看到以上的四个系统版本,首先会联想到什么 ?
高情商:装机经验丰富
低情商:系统被反复玩坏
反正我就是这样,如此“简单”的一个软件,我在自己的台式机上来回装了四五遍(我辛辛苦苦配置的路径和软件就这么没了),从装在conda虚拟环境 里、装在用户 目录下、装在系统目录下(然后系统就寄了),最终回过头来,还是决定装在docker里面,这才是最终的解决方案。在此也推荐正在看到这篇博客 的你,除非对自己的包管理能力充分自信,否则还是装在docker里面吧(当然富哥另说)。
目前也只是完成了一个安装,我仿真是一点不会,能记到多少,先把它写下来,后面不走回头路。
安装心得
首先在安装前,要充分地考察自己的需求,即,是否需要安装ROS系统。我在重装之前的初次安装中,一来就是毫无顾忌地装ROS,还是Bug极多的ROS2,犯了兵家大忌之一;二来是在安装完ROS2后,又迫不及待地去找了另一个博客去安装Gazebo,谁知这两个博客的内容是自相矛盾的,在编 ...
腾讯OCR测试
腾讯OCR测试
控制台: https://console.cloud.tencent.com/ocr/overview
demo:https://cloud.tencent.com/act/event/ocrdemo
参数文档:https://cloud.tencent.com/document/product/866/33526
腾讯云目前不能实现版面分析功能,仅就其文本识别的能力作测试。
通用版测试结果如下:
中文期刊
中英文混排中,英文识别效果极差,高度格式化的文本中也存在大量错误。
能识别两栏文本,以空格分隔两栏文本,两栏内容交叠在一起。
不能实现数学公式的自动识别
部分全角逗号被识别为半角,部分上标产生误识别结果
此外,文本中大量存在英文单词之间的空格被吞的现象。
大图文本
非标准型英文字体识别能力较差,出现大量误识别。中文全角括号识别错误,部分英文单词之间的空格被吞。
繁体竖排
文本大体上能识别出来,但是编排极其混乱,有的行能连成一句完整的话,有的又不能,内容不能重构为原始文本。
三栏文本
页眉标题文字字号较小,误识别较多。
正文文本仍然三栏 ...
现有脉冲网络框架
前言
脉冲神经网络不像深度神经网络那样,有非常成熟的训练框架如torch,tensorflow或者国内如oneflow,paddle等,在不带其他依赖包的前提下可以完成独立训练、推理以至部署。本博客的目的在于,收集整理现有的全部脉冲神经网络(说是全部其实言过其实,我压根就没看过几篇),从这些网络的搭建中学习设计思想,运用这部分网络完成自己的研究工作,或是为将来的框架发展做出自己的贡献。
目录
SLAYER框架
Version 1
SLAYER框架
由新加坡国立大学Garrick Orchard团队设计搭建的脉冲神经网络,目前已经迭代两个版本,首先介绍版本1。
Version 1
本框架的基本原理是:使用替代梯度完成对脉冲网络的训练。文献名:SLAYER: Spike Layer Error Reassignment in Time
神经元模型
本文选用的脉冲神经元模型是脉冲响应模型Spike Response Model(SRM),其核心的数学表达式为:输入至膜上的电位脉冲ai(t)a_i(t)ai(t)等于输入脉冲si(t)s_i(t)si(t)与膜响应函数ε(t)\v ...
5.6T杂项文件
公众号推文
5.6T原始数据目录为/mnt/cos/cos_shanghai_2/raw_datasets/mt/ 和/mnt/cos/cos_shanghai_2/raw_datasets/mt/p3/p1 ,均为月份标号,覆盖了从2021年11月起至2023年1月止的大量公众号、视频号推送文章,对该数据集的解压和清洗结果在以下链接中。
5.6T数据解压
taobao
目录路径 /mnt/cos/cos_shanghai_2/raw_datasets/mt/taobao
目录文件类型
含有极多子文件夹,且不同的子文件夹内装有的文件类型也不同,下表是全部子文件夹中,装有的全部类型的文件数量和文件大小,没标明的文件大小在5M以下。
后缀名
数量
备注
文件总大小
pdf
38139+60
PDF(60个)
117.2G+188M
rar
250
大部分是PPT和PPT模板文件,一定数量是pdf
69G
zip
117
大部分是pdf,夹杂有少量其他类型的文件,主要是券商的报告和医学、社会科学论文报告等
497G
ppt
90
104M
pptx
36
2 ...
Docx习题集
90万道小学语数外、初高中语数外政史地理化生共21科习题。
题库输出
处理完毕的题目存放于根目录/dataset_goosefs/cos_shanghai_2/ready_datasets/zh2/shiti/output 将根据处理框架的更新情况刷新题目:
20230722更新:/dataset_goosefs/cos_shanghai_2/ready_datasets/zh2/shiti/output/20230722
习题总体情况
习题含图片约占30%,共计32万道左右,包括题干有图片、选项有图片、解答有图片(公式以图片表述、比较少用的数学符号以图片插入),这部分完全不能解析;
习题含公式约占20%,这部分不含图片,能使用脚本或者Pandoc软件解析;
选择题(单道选择题约占总数60%,多道选择题约占总数20%),填空题约占10%,简答题和作文题共计占10%,总共能用的题目约61万道。
目前尚未发现不能转换的docx格式,仅转换了所有习题中的docx文件,未转换doc格式的文件(占比小于5%,转换较为复杂,尚未研究明白)。
习题转换项目
将docx直接转换为格式化的h ...
Google Coding代码数据集
数据集文件存储位置
/mnt/cos/cos_shanghai_1/raw_datasets/google_coding
解压缩并提取数据库文件后的数据集文件存储位置如下:
/mnt/cos/cos_shanghai_1/raw_datasets/google_coding/google_coding_unzip
数据集文件schema
每个文件夹中有两个数据库文件raw_data.sqlar和solutions.sqlar,其余为样例数据和测试数据。其中每个数据库文件的存储格式如下,
1234567CREATE TABLE sqlar( name TEXT PRIMARY KEY, -- name of the file mode INT, -- access permissions mtime INT, -- last modification time sz INT, -- original file size data BLOB -- compresse ...