重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。
站在用户的角度思考问题,与客户深入沟通,找到向阳网站设计与向阳网站推广的解决方案,凭借多年的经验,让设计与互联网技术结合,创造个性化、用户体验好的作品,建站类型包括:网站设计、做网站、企业官网、英文网站、手机端网站、网站推广、域名申请、虚拟空间、企业邮箱。业务覆盖向阳地区。使用工具:Free Spire.PDF for Java(免费版)
Jar文件获取导入:
方法1:通过官网下载jar文件包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序。导入后如下图:
方法2:可通过maven仓库安装导入,可参考导入方法。
Java代码示例
【示例1】读取PDF中的文本
import com.spire.pdf.*;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractText {
public static void main(String[]args) throws Exception {
//加载测试文档
PdfDocument pdf = new PdfDocument("sample.pdf");
//实例化StringBuilder类
StringBuilder sb = new StringBuilder();
//定义一个int型变量
int index = 0;
//遍历PDF文档中每页
PdfPageBase page;
for (int i= 0; i
文本读取结果:
【示例2】读取PDF中的图片
import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
public class ExtractImg {
public static void main(String[] args) throws Exception{
//加载测试文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("test.pdf");
//定义一个int型变量
int index = 0;
//遍历PDF每一页
for (int i= 0;i< pdf.getPages().getCount(); i ++){
//获取PDF页面
PdfPageBase page = pdf.getPages().get(i);
//使用extractImages方法获取页面上图片
for (BufferedImage image : page.extractImages()) {
//指定输出图片名称
File output = new File( String.format("Image_%d.png", index++));
//将图片保存为PNG格式文件
ImageIO.write(image, "PNG", output);
}
}
}
}
图片读取结果:
(本文完)
创新互联www.cdcxhl.cn,专业提供香港、美国云服务器,动态BGP最优骨干路由自动选择,持续稳定高效的网络助力业务部署。公司持有工信部办法的idc、isp许可证, 机房独有T级流量清洗系统配攻击溯源,准确进行流量调度,确保服务器高可用性。佳节活动现已开启,新人活动云服务器买多久送多久。