重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
之前做过用java读取word文档,获取word文本内容。
从策划到设计制作,每一步都追求做到细腻,制作可持续发展的企业网站。为客户提供成都网站设计、成都网站建设、网站策划、网页设计、域名与空间、网页空间、网络营销、VI设计、 网站改版、漏洞修补等服务。为客户提供更好的一站式互联网解决方案,以客户的口碑塑造优易品牌,携手广大客户,共同发展进步。
但发现docx的支持,doc就异常了。
后来找了很多资料发现是解析方法不一样。
首先要导入poi相关的jar包
我用的是maven,pom.xml引入如下:
org.apache.poi poi-ooxml 3.8 org.apache.poi poi-scratchpad 3.8
java获取word文本内容如下:
public BaseResp getParsedTxt(MultipartFile file) throws Exception { BaseResp br=new BaseResp("200","") ; String textType = file.getContentType(); String txt = ""; if(textType.equals(TXT_TYPE)){ String code = getCharset(file); txt = new String(file.getBytes(),code); }else if(textType.equals(DOC_TYPE)){ HWPFDocument doc = new HWPFDocument(file.getInputStream()); Range rang = doc.getRange(); txt = rang.text(); System.out.println(txt); }else if(textType.equals(DOCX_TYPE)){ File uFile = new File("tempFile.docx"); if(!uFile.exists()){ uFile.createNewFile(); } FileCopyUtils.copy(file.getBytes(), uFile); OPCPackage opcPackage = POIXMLDocument.openPackage("tempFile.docx"); POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage); txt= extractor.getText(); uFile.delete(); }else{ br = new BaseResp("300","上传文件格式错误,请上传.txt或者.docx"); return br; } br.setDatas(txt); return br; }
功能实现了。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持创新互联。