重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这篇文章将为大家详细讲解有关利用Java怎么对网页数据进行获取,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
创新互联专业提供成都移动机房托管服务,为用户提供五星数据中心、电信、双线接入解决方案,用户可自行在线购买成都移动机房托管服务,并享受7*24小时金牌售后服务。
1:通过HttpClient请求到达某网页的url访问地址(特别需要注意的是请求方式)
2:获取网页源码
3:查看源码是否有我们需要提取的数据
4:对源码进行拆解,一般使用分割,正则或者第三方jar包
5:获取需要的数据对自己创建的对象赋值
6:数据提取保存
下面简单的说一下在提取数据中的部分源码,以及用途:
/** * 向指定URL发送GET方法的请求 * * @param url * 发送请求的URL * @param param * 请求参数,请求参数应该是 name1=value1&name2=value2 的形式。 * @return URL 所代表远程资源的响应结果 */ public static String sendGet(String url, String param) { String result = ""; BufferedReader in = null; try { String urlNameString = url; URL realUrl = new URL(urlNameString); // 打开和URL之间的连接 URLConnection connection = realUrl.openConnection(); // 设置通用的请求属性 connection.setRequestProperty("accept", "*/*"); connection.setRequestProperty("connection", "Keep-Alive"); connection.setRequestProperty("user-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)"); // 建立实际的连接 connection.connect(); // 获取所有响应头字段 Map> map = connection.getHeaderFields(); // 定义 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream())); //这里如果出现乱码,请使用带编码的InputStreamReader构造方法,将需要的编码设置进去 String line; while ((line = in.readLine()) != null) { result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally块来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; }
解析存储数据
public Bid getData(String html) throws Exception { //获取的数据,存放在到Bid的对象中,自己可以重新建立一个对象存储 Bid bid = new Bid(); //采用Jsoup解析 Document doc = Jsoup.parse(html); // System.out.println("doc内容" + doc.text()); //获取html标签中的内容tr Elements elements = doc.select("tr"); System.out.println(elements.size() + "****条"); //循环遍历数据 for (Element element : elements) { if (element.select("td").first() == null){ continue; } Elements tdes = element.select("td"); for(int i = 0; i < tdes.size(); i++){ this.relation(tdes,tdes.get(i).text(),bid,i+1); } } return bid; }
得到的数据
Bid { h3 = '详见内容', itemName = '诉讼服务中心设备采购', item = '货物/办公消耗用品及类似物品/其他办公消耗用品及类似物品', itemUnit = '详见内容', areaName = '港北区', noticeTime = '2018年10月22日 18:41', itemNoticeTime = 'null', itemTime = 'null', kaibiaoTime = '2018年10月26日 09:00', winTime = 'null', kaibiaoDiDian = 'null', yusuanMoney = '¥67.00元(人民币)', allMoney = 'null', money = 'null', text = '' }
关于利用Java怎么对网页数据进行获取就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。