Snoopy
是一个
php
类,用来模拟浏览器的功能,可以获取网页内容,发送表
单。
Snoopy
正确运行需要你的服务器的
PHP
版本在
4
以上,
并且支持
PCRE
(
Perl
Compatible Regular Expressions
),基本的
LAMP
服务都支持。
一、
Snoopy
的一些特点
:
1.
抓取网页的内容
fetch
2.
抓取网页的文本内容
(
去除
HTML
标签
) fetchtext
3.
抓取网页的链接,表单
fetchlinks fetchform
4.
支持代理主机
5.
支持基本的用户名
/
密码验证
6.
支持设置
user_agent, referer(
来路
), cookies
和
header content(
头
文件
)
7.
支持浏览器重定向,并能控制重定向深度
8.
能把网页中的链接扩展成高质量的
url(
默认
)
9.
提交数据并且获取返回值
10.
支持跟踪
HTML
框架
11.
支持重定向的时候传递
cookies
,要求
php4
以上就可以了,由于本身是
php
一个类,无需扩支持,服务器不支持
curl
时候的最好选择。
二、类方法
:
fetch($URI)
———–
这是为了抓取网页的内容而使用的方法。
$URI
参数是被抓取网页的
URL
地
址。抓取的结果被存储在
$this->results
中。如果你正在抓取的是一个框架,
Snoopy
将会将每个框架追踪后存入数组中,然后存入
$this->results
。
fetchtext($URI)
—————
本方法类似于
fetch()
,唯一不同的就是本方法会去除
HTML
标签和其他的
无关数据,只返回网页中的文字内容。