都说小孩是四脚吞金兽,我记账的速度已经远远追不上小打花钱的速度了
有好长一段时间没有更新记账文件了,终于等到一个晚上小打早早睡着,花了4个多小时把这两个月家庭收支统计了一遍,更新完已是后半夜了
我用的是之前用MATLAB写的一个工具,一键记账,账单照片OCR文字识别
文章链接:MATLAB一键记账它不香吗?
虽然比徒手记账快很多,但效率还是太低了,经常手机截屏一截就是几十张图,偶尔碰上数字识别错误的时候,整个账目从头查一遍也是蛮崩溃的
我想起那篇文章的留言区有朋友说,支付宝可以导出账单表格
我就在想,能不能把信用卡账单也导出来,用MATLAB一键录入到我的记账文件中
结果发现实现起来并不容易,因为导出的账单文件是pdf格式
好在最终还是搞定了用MATLAB读取pdf,已经实现了真正的一键导入账单的功能,今天简单分享一下,MATLAB处理pdf文件数据的几种方法
01
碰到pdf文件读取这类问题,平时最常见的解决办法是,把pdf里的表格复制粘贴到excel中,然后用MATLAB对excel里的数据再加工
效果还是很不错的,比手机截屏再文字识别的方法快多了
不过感觉还是差了点意思,毕竟要手动把数据从pdf转移到excel里,如果有个pdf文件,就意味着要手动复制粘贴次
02
其实MATLAB是可以直接读取pdf文件的
用MATLAB与word交互的方式打开pdf文件,就可以直接读取pdf
同样,如果想用MATLAB把无数个word文档一键批量转成pdf,也可以用MATLAB与word交互的方式
03
不过,信用卡账单似乎并不是一个普通的pdf文件
如果用MATLAB与word交互的方式直接读取账单文件,会出现文件格式转换问题,最终所有的数据信息会变成图片形式呈现
我试着手动把pdf文件另存为word文档,就不会存在这个问题,所有的数据信息在word文件中都是可选可编辑的
接下来也就很容易处理了,我用MATLAB模拟键盘操作,一键把pdf文件另存为word文档,然后再读取word文档中的数据
04
当然在平时的工作学习过程中,还是会碰到图片形式的pdf文件
这个处理起来感觉有点奇特,先用MATLAB与word交互的形式读取pdf,然后保存为word,修改文件名后缀docx为zip,或者其他压缩文件,就会发现pdf文件里的所有图片会保存在其中一个文件夹中
最后用MATLABocr文字识别的功能获取图片中的数据信息,就可以进行下一步数据分析
大体上,pdf文件可能出现的几种情况,以及对应的解决方案都介绍完了
文章中展示的案例代码,我都整理到一个压缩包中了,
转载请注明:http://www.feijiquandao.com/hyljj/7616.html