重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这篇文章主要介绍了如何用python获取免费代理IP的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇如何用python获取免费代理IP文章都会有所收获,下面我们一起来看看吧。
我们提供的服务有:成都网站制作、做网站、外贸营销网站建设、微信公众号开发、网站优化、网站认证、白碱滩ssl等。为成百上千企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的白碱滩网站制作公司
首先创建scrapy项目, 运行一下命令:
$ scrapy startproject getProxy kuaidaili.com
$ scrapy genspider proxyKdlSpider kuaidaili.com
百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。
3. 通过以上的界面, 改写items.py, 增加如下项, 用来保存代理ip的相关信息
4. 通过观察页面源码, 发现我们需要的代理ip信息可用xpath轻易获取。
5. 通过上图观察到的规律改写proxyKdlSpider.py文件, 通过如下xpath可获取代理ip信息。
6. 改写pipelines.py, 将解析提取出来的代理ip信息保存到文件proxy.txt中。
7. 改写settings.py, 增加以下行:
其中USER_AGENT会改写请求headers。 因快代理网站会通过USER_AGENT来判断访问者是否爬虫, 不这样设置会导致运行爬虫的ip被封禁。
设置DOWNLOAD_DELAY=5含义是爬虫每5s请求一个网页, 这样设置的目的是为了避免快速访问大量网页触发网站的反爬虫机制
设置ITEM_PIPELINES是告诉爬虫在过滤完需要的信息后如何保存。
8 运行编写的爬虫:
$ scrapy crawl proxyKdlSpider
由于我们限制了采集速度, 过程会有点长。 运行完毕后采集结果如下:
关于“如何用python获取免费代理IP”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“如何用python获取免费代理IP”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注创新互联行业资讯频道。