如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。
Python第三方模块Camelot能够精准识别PDF中的表格信息,并提取为pandas数据结构,而且还能导出为多种格式:JSON,Excel,HTML和Sqlite。
下面给大家介绍这个模块的使用方法:
1.准备
开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,可以访问这篇文章:超详细Python安装指南进行安装。
如果你用Python的目的是数据分析,可以直接安装Anaconda:Python数据分析与挖掘好帮手—Anaconda,它内置了Python和pip.
此外,推荐大家用VSCode编辑器,它有许多的优点:Python编程的最好搭档—VSCode详细指南。
请选择以下任一种方式输入命令安装依赖:1.Windows环境打开Cmd(开始-运行-CMD)。2.MacOS环境打开Terminal(
转载请注明:http://www.feijiquandao.com/hyljj/7660.html