golang-colly实例_colly例子

link之家
链接快照平台
输入网页链接，自动生成快照
标签化管理网页链接
eg1：fcdm爬虫

package main
import (
	"fmt"
	"github.com/PuerkitoBio/goquery"
	"github.com/gocolly/colly"
	"strconv"
	"time"
func main(){
	t := time.Now()
	c := colly.NewCollector()
	contentSelector := "div.lpic>ul>li"
	c.OnHTML(contentSelector, func(eleContent *colly.HTMLElement) {
		eleContent.DOM.Each(func(i int, selection *goquery.Selection) {
			title := selection.Find("a").Last().Text()
			status := selection.Find("font").First().Text()
			lei := selection.Find("span").Last().Text()
			fmt.Println("title:",title)
   			fmt.Println("status:",status)
 			fmt.Println("lei:",lei)
	c.OnError(func(response *colly.Response, err error) {
		fmt.Println(err)
	for i := 0;i<3;i++{
		num := strconv.Itoa(i)
		c.Visit("https://www.dm530p.net/list/?region=%E6%97%A5%E6%9C%AC&order=%E7%82%B9%E5%87%BB%E9%87%8F&pagesize=24&pageindex="+num)
	c.Wait()
	fmt.Printf("花费时间：%s",time.Since(t))
eg2：小说网爬虫，带注释
 
package main
import (
	"fmt"
	"github.com/gocolly/colly"
	"strings"
//将一本小说从头下载到尾
var  superEvolutionUrl = "https://www.biqiuge.com/book/2753"
//流程：
//1.获取小说的首页，并解析出章节列表
//2.解析出每一章的url和章节名
//3.继续访问每一张的url
//将最新的章节和全本保存在两个不同的文件夹中
func main(){
	//1.创建collector收集器
	c := colly.NewCollector()
	//2.设置gbk编码，可重复访问
	c.DetectCharset = true
	c.AllowURLRevisit = true
	//3.clone collector用于内容解析
	contentCollector := c.Clone()//拷贝
	beginRevist := false
	//4.div[class]筛选出Element为div并且有class这个属性的
	catalogSelector := "div[class=listmain]"
	c.OnHTML(catalogSelector, func(elemCatalog *colly.HTMLElement) {
		//5.筛选出dd元素下元素为a的内容
		elemCatalog.ForEach("dd>a", func(i int, elemHref *colly.HTMLElement) {
			tmpUrl := elemHref.Attr("href ")
			//6.1忽略前面的内容，从第一张开始
			if strings.Index(elemHref.Text,"第一章") != -1{
				beginRevist = true
			//6.2 拼装成全路径url
			 if beginRevist{
			 	chapterUrl := elemHref.Request.AbsoluteURL(tmpUrl)
			 	//继续访问章节url
			 	contentCollector.Visit(chapterUrl)
	c.OnRequest(func(request *colly.Request) {
		fmt.Println("visiting",request.URL.String())
	//设置Onhtml回调函数
	contentSelector := "div[class=showtxt]"
	contentCollector.OnHTML(contentSelector, func(eleContent *colly.HTMLElement) {
		fmt.Printf("%s\n",eleContent.Text)
	c.Visit(superEvolutionUrl)
                    goqueryhttps://blog.csdn.net/yang731227/article/details/89338745eg1：fcdm爬虫package mainimport (	"fmt"	"github.com/PuerkitoBio/goquery"	"github.com/gocolly/colly"	"strconv"	"time")func main(){	t := time.Now()	c := colly.NewCollector()	content
最近在看go
然后写了个爬虫爬点数据做个后台然后我安卓客户端在实现一套，在爬取过程中先后试过了、http/net获取body解析用正则、得到bod用goquery创建document，直接用gocolly来访问解析，刚好gocolly内部是也用了goquery
由于之前没写过js 只是对html标签有一点了解 所以在网上找到了这篇goquery的选择器·文章有部分修改添加
goquery对爬取到的HTML进行选择和
				Golang爬虫框架 colly 简介
colly是一个采用Go语言编写的Web爬虫框架，旨在提供一个能够些任何爬虫/采集器/蜘蛛的简介模板，通过Colly。你可以轻松的从网站提取结构化数据，然后进行数据挖掘，处理或归档
清晰明了的API
速度快（每个内核上的请求数大于1K）
管理每个域的请求延迟和最大并发数
自动cookie和会话处理
同步/异步/ 并行抓取
自动处理非Unicode编码
支持Robots.txt
支持Google App Engine
通过环境变量进行配置
c.OnError(func(_ *colly.Response, err error) {
    log.Println("Something went wrong:", err)
})//请求期间发生错误调用
c.OnResponseHeaders(func(r *colly.Respon
				昨天正好看到一位朋友分享了一个基于Golang的爬虫框架 — Colly
用Golang写爬虫(六) - 使用colly
Colly是一个基于Golang开发的快速轻量的爬虫框架，支持异步，并行，分布式，还可以处理Cookie和Session
Colly的官方文档写的也很简单明了，建议可以看一下，尤其是提供了很多例子
之前我写过一篇使用net/http和goquery的爬虫，Golang 并发爬虫...