htmlunit使用代理IP_htmlunitdriver 设置代理ip

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

淡定的核桃 · [我的室友，是蛇精病！]-------序章- ...· 1 年前 ·

乖乖的牛肉面 · 百变女王“万维莎”开啦！南京玄武湖发现一朵红 ...· 1 年前 ·

博学的地瓜 · 4.52万/㎡!1天就成交!合肥名校公寓房也 ...· 1 年前 ·

讲道义的鞭炮 · 长安欧尚Z6iDD缺点太多了？长安欧尚Z6i ...· 1 年前 ·

果断的汉堡包 · 殁仙-殁仙在线漫画-在线漫画-腾讯动漫官方网站· 1 年前 ·

String  url="http://news.cnblogs.com/";//想采集的网址
	String refer="http://www.cnblogs.com/";
	URL link=new URL(url); 
	WebClient wc=new WebClient();
	WebRequest request=new WebRequest(link); 
	request.setCharset("UTF-8");
	request.setProxyHost("120.120.120.x");
	request.setProxyPort(8080);
	request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段
	设置请求报文头里的User-Agent字段
	request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
	//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
	//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。
	//其他报文头字段可以根据需要添加
	wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理
	wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页，这个是必须的
	wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页，这个是必须的。
	wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
	wc.getOptions().setThrowExceptionOnScriptError(false);
	wc.getOptions().setTimeout(10000);
	//设置cookie。如果你有cookie，可以在这里设置
	Set<Cookie> cookies=null;
	Iterator<Cookie> i = cookies.iterator();
	while (i.hasNext()) 
	    wc.getCookieManager().addCookie(i.next());
	//准备工作已经做好了
	HtmlPage page=null;
	page = wc.getPage(request);
	if(page==null)
	    System.out.println("采集 "+url+" 失败!!!");
	    return ;
	String content=page.asText();//网页内容保存在content里
	if(content==null)
	    System.out.println("采集 "+url+" 失败!!!");
	    return ;
	//搞定了
	CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
	Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里，下次请求的时候可能可以用上啦。

String url="http://news.cnblogs.com/";//想采集的网址 String refer="http://www.cnblogs.com/"; URL link=new URL(url); WebClient wc=new WebClient(); WebRequest request=new WebRequest(link); request.set // 设置代理服务器地址 proxy.setHttpProxy(" 代理服务器地址:端口号"); DesiredCapabilities capabilities = DesiredCapabilities. htmlUnit (); capabilities.setCapabil

如果你没有采用maven或者gradle构建的项目去使用 htmlunit ，如果只是采用传统的java项目使用 htmlunit 的话，那么只导入 htmlunit 的主jar包，你将会遇到无数个Exception，别问我为什么知道，这里还是推荐使用 maven或者gradle去构建 htmlunit 的项目，因为它实在依赖了很多的jar包，纯靠手动导入是不行的，不信你试试！ htmlunit 依赖的jar包如下：

内容转至http://blog.java1234.com/blog/articles/282.html 有时候频繁的爬取第三方站点内容，会被站点的防火墙拦截， IP 拉黑，所以这时候，就要用到代理 IP ，拉黑一个就换一个； htmlunit 实用代理的方式比较简单，WebClient重载构造方法就有提供，我们看下演示代码： package com.hbk. htmlunit ; import java...

import com.gargoylesoftware. htmlunit .BrowserVersion; import com.gargoylesoftware. htmlunit .WebClient; import com.gargoylesoftware. htmlunit .html