网上药店
您现在的位置: 股票作手回忆录 >> 股票作手回忆录简介 >> 正文 >> 正文

MATLAB读取PDF它不香吗

来源:股票作手回忆录 时间:2021/5/25

都说小孩是四脚吞金兽,我记账的速度已经远远追不上小打花钱的速度了

有好长一段时间没有更新记账文件了,终于等到一个晚上小打早早睡着,花了4个多小时把这两个月家庭收支统计了一遍,更新完已是后半夜了

我用的是之前用MATLAB写的一个工具,一键记账,账单照片OCR文字识别

文章链接:MATLAB一键记账它不香吗?

虽然比徒手记账快很多,但效率还是太低了,经常手机截屏一截就是几十张图,偶尔碰上数字识别错误的时候,整个账目从头查一遍也是蛮崩溃的

我想起那篇文章的留言区有朋友说,支付宝可以导出账单表格

我就在想,能不能把信用卡账单也导出来,用MATLAB一键录入到我的记账文件中

结果发现实现起来并不容易,因为导出的账单文件是pdf格式

好在最终还是搞定了用MATLAB读取pdf,已经实现了真正的一键导入账单的功能,今天简单分享一下,MATLAB处理pdf文件数据的几种方法

01

碰到pdf文件读取这类问题,平时最常见的解决办法是,把pdf里的表格复制粘贴到excel中,然后用MATLAB对excel里的数据再加工

效果还是很不错的,比手机截屏再文字识别的方法快多了

不过感觉还是差了点意思,毕竟要手动把数据从pdf转移到excel里,如果有个pdf文件,就意味着要手动复制粘贴次

02

其实MATLAB是可以直接读取pdf文件的

用MATLAB与word交互的方式打开pdf文件,就可以直接读取pdf

同样,如果想用MATLAB把无数个word文档一键批量转成pdf,也可以用MATLAB与word交互的方式

03

不过,信用卡账单似乎并不是一个普通的pdf文件

如果用MATLAB与word交互的方式直接读取账单文件,会出现文件格式转换问题,最终所有的数据信息会变成图片形式呈现

我试着手动把pdf文件另存为word文档,就不会存在这个问题,所有的数据信息在word文件中都是可选可编辑的

接下来也就很容易处理了,我用MATLAB模拟键盘操作,一键把pdf文件另存为word文档,然后再读取word文档中的数据

04

当然在平时的工作学习过程中,还是会碰到图片形式的pdf文件

这个处理起来感觉有点奇特,先用MATLAB与word交互的形式读取pdf,然后保存为word,修改文件名后缀docx为zip,或者其他压缩文件,就会发现pdf文件里的所有图片会保存在其中一个文件夹中

最后用MATLABocr文字识别的功能获取图片中的数据信息,就可以进行下一步数据分析

大体上,pdf文件可能出现的几种情况,以及对应的解决方案都介绍完了

文章中展示的案例代码,我都整理到一个压缩包中了,

转载请注明:http://www.feijiquandao.com/hyljj/7616.html

  • 上一篇文章:
  • 下一篇文章: 没有了