python MAC pdf2image 的安装 以及遇到的一些坑

标签: 机器学习  深度学习  计算机视觉

pdf2image 是一个将pdf文件转为image文件的包。

A python module that wraps the pdftoppm utility to convert PDF to PIL Image object

或者可以去github 的官网链接看相关的安装教程。

github地址为:https://github.com/Belval/pdf2image

安装:

pip install pdf2image

但是对于不同的平台的需要的安装相应的组件。

Windows

对于windows用户需要安装 poppler for Windows, 并且需要添加环境变量, 将bin/文件夹的路径添加到换机变量中 

Mac

对于mac用户,需要也需要安装 poppler for Mac.具体的安装见下面。

Linux

大多数发行版附带pdftoppm和pdftocairo。 如果尚未安装,请参考软件包管理器以安装poppler-utils

pdf2image的使用

一共有三种使用的方法:

  • 直接使用路径去读取pdf文件。
  • 先使用open打开,再利用convert_from_bytes去解析。
  • 采用临时文件的方式去读取
#以下三种方式都可以读取文件,第三种最好
image = convert_from_path('data/0.pdf')
image = convert_from_bytes(open('data/0.pdf', 'rb').read())
with tempfile.TemporaryDirectory() as path:
    image_from_path = convert_from_path('data/0.pdf', output_folder=path)
from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import (
    PDFInfoNotInstalledError,
    PDFPageCountError,
    PDFSyntaxError
)
def pdf2image2(pdfPath, imagePath, pageNum):
    #方法一:
    #convert_from_path('a.pdf', dpi=500, "output",fmt="JPEG",output_file="ok",thread_count=4)
    #这会将a.pdf转换成在output文件夹下形如ok_线程id-页码.jpg的一些文件。
    #若不指定thread_count则默认为1,并且在文件名中显示id. 这种转换是直接写入到磁盘上的,因此不会占用太多内存。
    
#     #下面的写法直接写入到内存,
#     images = convert_from_path(pdfPath, dpi=96)
#     for image in images:
#         if not os.path.exists(imagePath):
#             os.makedirs(imagePath)
#         image.save(imagePath+'/'+'psReport_%s.png' % images.index(image), 'PNG')
    
    #方法二:
    images = convert_from_bytes(open(pdfPath, 'rb').read())
    for image in images:
        if not os.path.exists(imagePath):
            os.makedirs(imagePath)
        image.save(imagePath+'/'+'psReport_%s.png' % images.index(image), 'PNG')    
    
    #方法三,也是最推荐的方法
#     with tempfile.TemporaryDirectory() as path:
#         images_from_path = convert_from_path(pdfPath, output_folder=path, dpi=96)
#         for image in images_from_path:
#             if not os.path.exists(imagePath):
#                 os.makedirs(imagePath)
#             image.save(imagePath+'/'+'psReport_%s.png' % images_from_path.index(image), 'PNG')
#         print(images_from_path)
pdf_path = "data/pdf/bpm.pdf"
image_path = "data/image"
page_num = 35
pdf2image2(pdf_path, image_path, page_num)

填坑笔记

1.第一次在直接pip安装完成之后,由于没有安装poppler这个包,一直报错,原来是没有没有安装popppler组件,提示PDFInfoNotInstalledError:Unable to get page count.Is poppler installed and in PATH?

2.由于我的是mac电脑这里注重介绍一下mac的poppler安装。

参考链接:http://macappstore.org/poppler/

第一步,在中断中输入以下代码:

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" < /dev/null 2> /dev/null

第二步:

brew install poppler

等以上都运行完毕的时候,就已经安装完成了。

Reference

https://blog.csdn.net/qq_30159015/article/details/80200202

https://cloud.tencent.com/developer/article/1481638

版权声明:本文为qq_36489878原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_36489878/article/details/103880834

智能推荐

Reflect反射的基础知识

写个父类: 写个子类: 利用反射获得该子类中的属性,方法,构造,父类及接口: 运行结果:...

spring cloud netflix (07) 服务的消费者(feign)

前言 完整知识点:spring cloud netflix 系列技术栈 Feign (同步通信 HTTP通信) feign是基于接口完成服务与服务之间的通信的 搭建Feign服务 项目结构 项目搭建 pom.xml application类 application.yml 使用feign完成服务与服务之间的通信 feign是基于接口完成服务与服务之间的通信的...

AtCoder Beginner Contest 174 E.Logs

AtCoder Beginner Contest 174 E.Logs 题目链接 到最后才发现是二分,菜菜的我/(ㄒoㄒ)/~~ 我们直接二分 [1,max{a[i]}][1,max\lbrace a[i]\rbrace][1,max{a[i]}] 即可,对每一个 midmidmid,每个数 a[i]a[i]a[i] 只需要切 a[i]−1mid\frac{a[i]-1}{mid}mi...

小程序基础与实战案例

小程序开发工具与基础 小程序开发准备: 申请小程序账号( appid ) 下载并安装微信开发者工具 具体步骤如下: 先进入 微信公众平台 ,下拉页面,把鼠标悬浮在小程序图标上 然后点击 小程序开发文档 照着里面给的步骤,就可以申请到小程序账号了。 然后就可以下载 开发者工具 了 下载完打开后的界面就是这个样子 下面让我们来新建一个小程序开发项目: 在AppID输入自己刚刚注册的AppID就可以,或...

VMware centOS7 下通过minikube部署Kubernetes

1、环境准备: VMware CentOS-7-x86_64 CPU:2*2core 内存:8G 宿主机和虚拟机需网络互通,虚拟机外网访问正常 Centos发行版版本查看:cat /etc/centos-release root用户操作 2、禁用swap分区 Kubernetes 1.8开始要求关闭系统的Swap,可暂时关闭或永久禁用, 使用 $ free -m 确认swap是否为开启状态 $ s...

猜你喜欢

逻辑回归与scikit-learn

欢迎关注本人的微信公众号AI_Engine LogisticRegression 算法原理 一句话概括:逻辑回归假设数据服从伯努利分布,通过极大化似然函数(损失函数)的方法,运用梯度下降或其他优化算法来求解参数,来达到将数据二分类的目的。 定义:逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性(不是概率)。比如某用户...

指针OR数组?用他们来表达字符串又有何不同?

cocowy的编程之旅 在学习C语言的过程中我们经常可以看到或者听到这样一句话:数组其实等价于指针,例如: 在这里可以轻松的看出输出后他们的值相等,其实在计算机内存里面,p为本地变量,有着他自己的作用域。而指针变量q保存着这个数组的首地址,通过*号指向这个地址保存的变量值。 然而我们再看一个例子: 这个时候计算机报错,这是为什么呢? 其实原因很简单,指针说指向的这个字符串的地址是位于计算机代码段地...

广度搜索

广度搜索的基本使用方法 广度搜索不同于深度搜索,是一种一步一步进行的过程,每一个点只记录一遍。需要用到队列记录每一步可以走到的位置,找到目标位置输出步数即可。 用到的知识:结构体、队列 如图 首先我们需要定义一个结构体来存储每个遍历到的点和步数 广搜不会用到递归,所以可以直接在主函数里写,这里需要定义一个结构体队列 初始化队列并将起始点入列 遍历 完整代码...

NIO Socket 编程实现tcp通信入门(二)

1、NIO简介 NIO面向通道和缓冲区进行工作,数据总是从通道读取到缓冲区中,或者从缓冲区写入到通道中。可以双向传输数据,是同步非阻塞式IO。NIO还引入了选择器机制,从而实现了一个选择器监听多个底层通道,减少了线程并发数。用NIO实现socket的Tcp通信需要掌握下面三个知识点: Buffer 缓冲区 Channel 通道 Selector 选择器   2、java.nio.Buff...

[字节码系列]ObjectWeb ASM构建Method Monitor

      在前面的篇章中,我们看到Java Instrutment的强大能力,本篇,我们将介绍如何使用ObjectWeb ASM的字节码增强能力构建Method Monitor       1.什么是ObjectWeb ASM      ObjectWeb ...