重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
正确的正则:
成都创新互联坚持“要么做到,要么别承诺”的工作理念,服务领域包括:成都网站设计、成都网站建设、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的墨玉网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!
document\.write\('a\s+href="(?content([^\/"]*\/)*[^"]*\.jpg)"\s+id="jqzoomMain"\s+class="jqlightbox"
你的正则的错误在于:
1. (?content.*\/+.*\.jpg)中.*使用了贪婪匹配,匹配了所有的内容,而不光是/前的内容,正确的写法是[^/"]所有非/非"的内容。
2. (?content.*\/+.*\.jpg)中\/+加号修饰的是\/,而非.*\/也就是说只有斜杠可以重复N次,正确的写法是([^/"]*\/)+
把简单易用做到极至, 任何人都能做数据采集, 根本不需要做什么配置,在网页上点击几下就可以采集数据。推荐使用小白都能用的网页数据采集神器 “爬一爬” 数据采集器 , 轻量高效,还可以跨平台!!多种采集模式:http快速, javascript引擎加载异步数据, 点击翻页模式让您不用担心分页问题
应该也是可以的,你给他设置相应的规则,图片和javascript原理应该是一样的
楼主看一下我写的吧
其实是可以的,页面加载完成之后给指定的文本框填入文字
然后用脚本触发那个按钮,提交表单,试试下面的代码
!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"
html
head
title new document /title
/head
body
form name="t" action="post" onsubmit="return check()" action=""
select name="s1"
option value="1" selected所有分类/option
option value="2"2222/option
/select
input id="tt" type="text" name="tt" value=""
select name="s2"
option value="1" selected所有分类/option
option value="2"2222/option
/select
input type="submit" id="btn" value="ok" /
/form
script type="text/javascript"
document.getElementById('tt').value = "我自动输入的关键词";
//document.t.submit();
document.getElementById('btn').click();
function check()
{
var text = document.t.tt.value;
alert("您输入的关键词是:"+text);
return false;
}
/script
/body
/html
phantomjs和casperjs
Casperjs是基于Phantomjs的,而Phantom JS是一个服务器端的 JavaScript API 的 WebKit
可以做到采集javascript 生成的网页
当然你也可以去分析js然后直接通过接口获取网页的数据。
用webBrowser控件载入网页,等它的js执行完成,再取得webbrowser1.document.body.innerHTML,再进行内容筛选。