添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议 》和 《 阿里云开发者社区知识产权保护指引 》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单 进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

原文: 【.NET】使用HtmlAgilityPack抓取网页数据

刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么严谨,在codeplex里有一个开源项目 HtmlAgilityPack 提供了用XPath解析HTML文件,下面掩饰如何使用该类库的使用

首先说下XPath路径表达式

XPath路径表达式

用来选取XML文档中的节点或节点集的

1、术语:节点(Node):7种类型:元素,属性,文本,命名空间,处理命令,注释,文档(根)节点

2、节点关系:父(Parent),子(Children),同胞(Sibling),先辈(Ancestor),后代(Descendant)

3、路径表达式

nodename  节点名,选取此节点的所有子节点  例: childnode  当前节点中的childnode子节点,不包含孙子及以下的节点

/     从根节点选取  例:/root/childnode/grandsonnode

//     表示所有后代节点  例://childnode    所有名为childnode的后代节点

.    表示当前节点  例:  ./childnode    表示当前节点的childnode节点

..     表示父节点  例:  ../nearnode     表示父亲节点的nearnode子节点

@    选取属性  /root/childnode/@id     表示childnode的所有含有id属性的节点集

4、谓语(Predicates)

谓语可以对节点集进行一些限制,使选择更精确

/root/book[1]    节点集中的第一个节点

/root/book[last()]  节点集中最后一个节点

/root/book[position() - 1]  节点集中倒数第二个节点集

/root/book[position() < 5]  节点集中前五个节点集

/root/book[@id]      节点集中含有属性id的节点集

/root/book[@id='chinese']  节点集中id属性值为chinese的节点集

/root/book[price > 35]/title  节点集中book的price元素值大于35的title节点集

5、通配符:XPath路径中同样支持通配符(*,@*,node(), text())

例:  /bookstore/*

//title[@*]

6、XPath轴

定义相对于当前节点的节点集

ancestor    所有祖先节点

attribute 所有属性节点

child      所有子元素

descendant  所有后代节点(子,孙。。。)

following    结束标记后的所有节点 preceding   开始标记前的所有节点

following-sibling  结束标记后的所有同胞节点

preceding-sibling  开始标记前的所有同胞节点

namespace   当前命名空间的所有节点

parent     父节点

self       当前节点

用法:轴名称::节点测试[谓语]

例:  ancestor::book

child::text()

7、运算符

|  两个节点集的合并  例:/root/book[1] | /root/book[3]

+,-,*,dev,mod

=,!=,<,>,<=,>=

or,and  或和与

htmlDoc.DocumentNode.SelectNodes("//div[@ispublished='false' or @ispublished='False']");
//Xpath node selection - how to select 2 different elements - htmlagilitypack
//选择两种不同标签的节点
string srxPathOfCategory = "//div[@class='breadcrumbs']//li[@class='product'] | //div[@class='breadcrumbs']//a";
//So for " or " just need to use " | "
    //删除注释,script,style
    node.Descendants()
                .Where(n => n.Name == "script" || n.Name == "style" || n.Name=="#comment")
                .ToList().ForEach(n => n.Remove());
    //遍历node节点的所有后代节点
    foreach(var HtmlNode in node.Descendants())

HtmlAgilityPack类库用法

  1、首先需要获取到html页面数据,可以通过WebRequest类来获取

        public static string GetHtmlStr(string url)
                WebRequest rGet = WebRequest.Create(url);
                WebResponse rSet = rGet.GetResponse();
                Stream s = rSet.GetResponseStream();
                StreamReader reader = new StreamReader(s, Encoding.UTF8);
                return reader.ReadToEnd();
            catch (WebException)
                //连接失败
                return null;

  2、通过HtmlDocument类加载html数据

        string htmlstr = GetHtmlStr("http://www.hao123.com");
        HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
        doc.LoadHtml(htmlstr);
        HtmlNode rootnode = doc.DocumentNode;    //XPath路径表达式,这里表示选取所有span节点中的font最后一个子节点,其中span节点的class属性值为num
        //根据网页的内容设置XPath路径表达式
        string xpathstring = "//span[@class='num']/font[last()]";    
        HtmlNodeCollection aa = rootnode.SelectNodes(xpathstring);    //所有找到的节点都是一个集合
        if(aa != null)
            string innertext = aa[0].InnerText;
            string color = aa[0].GetAttributeValue("color", "");    //获取color属性,第二个参数为默认值
            //其他属性大家自己尝试

  也可以通过HtmlWeb类来获得HtmlDocument

        HtmlWeb web = new HtmlWeb();
        HtmlAgilityPack.HtmlDocument doc = web.Load(url);
        HtmlNode rootnode = doc.DocumentNode;

  多个属性条件查询      //div[@align='center' and @height='24']

  不存在class属性       //div[not(@class)]

提取的时候需要判断是这个标签的class属性是否包含某个指定的属性值,google了一下(百度搜索没有相应的结果),利用Xpath的contains可以解决,代码如下: