【.NET】使用HtmlAgilityPack抓取网页数据-阿里云开发者社区

原文: 【.NET】使用HtmlAgilityPack抓取网页数据

刚刚学习了XPath路径表达式，主要是对XML文档中的节点进行搜索，通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问，html也是也是一种类似于xml的标记语言，但是语法没有那么严谨，在codeplex里有一个开源项目 HtmlAgilityPack ，提供了用XPath解析HTML文件，下面掩饰如何使用该类库的使用

首先说下XPath路径表达式

XPath路径表达式

用来选取XML文档中的节点或节点集的

1、术语：节点（Node）：7种类型：元素，属性，文本，命名空间，处理命令，注释，文档（根）节点

2、节点关系：父（Parent），子（Children），同胞（Sibling），先辈（Ancestor），后代（Descendant）

3、路径表达式

nodename　　节点名，选取此节点的所有子节点　　例： childnode　　当前节点中的childnode子节点，不包含孙子及以下的节点

/　　　从根节点选取　　例：/root/childnode/grandsonnode

//　　　表示所有后代节点　　例：//childnode　　　　所有名为childnode的后代节点

.　　　　表示当前节点　　例：　　./childnode　　　　表示当前节点的childnode节点

..　　　表示父节点　　例：　　../nearnode　　　　表示父亲节点的nearnode子节点

@　　　　选取属性　　/root/childnode/@id　　　　　表示childnode的所有含有id属性的节点集

4、谓语（Predicates）

谓语可以对节点集进行一些限制，使选择更精确

/root/book[1]　　　　节点集中的第一个节点

/root/book[last()]　　节点集中最后一个节点

/root/book[position() - 1]　　节点集中倒数第二个节点集

/root/book[position() < 5]　　节点集中前五个节点集

/root/book[@id]　　　　　　节点集中含有属性id的节点集

/root/book[@id='chinese']　　节点集中id属性值为chinese的节点集

/root/book[price > 35]/title　　节点集中book的price元素值大于35的title节点集

5、通配符：XPath路径中同样支持通配符（*，@*，node()， text()）

例：　　/bookstore/*

//title[@*]

6、XPath轴

定义相对于当前节点的节点集

ancestor　　　　所有祖先节点

attribute 所有属性节点

child　　　　　　所有子元素

descendant　　所有后代节点（子，孙。。。）

following　　　　结束标记后的所有节点 preceding　　　开始标记前的所有节点

following-sibling　　结束标记后的所有同胞节点

preceding-sibling　　开始标记前的所有同胞节点

namespace　　　当前命名空间的所有节点

parent　　　　　父节点

self　　　　　　当前节点

用法：轴名称::节点测试[谓语]

例：　　ancestor::book

child::text()

7、运算符

|　　两个节点集的合并　　例：/root/book[1] | /root/book[3]

+，-，*，dev，mod

=，!=，<，>，<=，>=

or，and　　或和与

htmlDoc.DocumentNode.SelectNodes("//div[@ispublished='false' or @ispublished='False']");

//Xpath node selection - how to select 2 different elements - htmlagilitypack
//选择两种不同标签的节点
string srxPathOfCategory = "//div[@class='breadcrumbs']//li[@class='product'] | //div[@class='breadcrumbs']//a";
//So for " or " just need to use " | "

    //删除注释，script，style
    node.Descendants()
                .Where(n => n.Name == "script" || n.Name == "style" || n.Name=="#comment")
                .ToList().ForEach(n => n.Remove());
    //遍历node节点的所有后代节点
    foreach(var HtmlNode in node.Descendants())
HtmlAgilityPack类库用法 
　　1、首先需要获取到html页面数据，可以通过WebRequest类来获取 
         public static string GetHtmlStr(string url)
                WebRequest rGet = WebRequest.Create(url);
                WebResponse rSet = rGet.GetResponse();
                Stream s = rSet.GetResponseStream();
                StreamReader reader = new StreamReader(s, Encoding.UTF8);
                return reader.ReadToEnd();
            catch (WebException)
                //连接失败
                return null;
　　2、通过HtmlDocument类加载html数据 
         string htmlstr = GetHtmlStr("http://www.hao123.com");
        HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
        doc.LoadHtml(htmlstr);
        HtmlNode rootnode = doc.DocumentNode;    //XPath路径表达式，这里表示选取所有span节点中的font最后一个子节点，其中span节点的class属性值为num
        //根据网页的内容设置XPath路径表达式
        string xpathstring = "//span[@class='num']/font[last()]";    
        HtmlNodeCollection aa = rootnode.SelectNodes(xpathstring);    //所有找到的节点都是一个集合
        if(aa != null)
            string innertext = aa[0].InnerText;
            string color = aa[0].GetAttributeValue("color", "");    //获取color属性，第二个参数为默认值
            //其他属性大家自己尝试
　　也可以通过HtmlWeb类来获得HtmlDocument 
         HtmlWeb web = new HtmlWeb();
        HtmlAgilityPack.HtmlDocument doc = web.Load(url);
        HtmlNode rootnode = doc.DocumentNode; 
　　多个属性条件查询　　　　　　//div[@align='center' and @height='24'] 
　　不存在class属性　　 　　　　//div[not(@class)] 
提取的时候需要判断是这个标签的class属性是否包含某个指定的属性值，google了一下（百度搜索没有相应的结果），利用Xpath的contains可以解决，代码如下：