package main
import (
"fmt"
"github.com/gocolly/colly"
"strings"
var superEvolutionUrl = "https://www.biqiuge.com/book/2753"
func main(){
c := colly.NewCollector()
c.DetectCharset = true
c.AllowURLRevisit = true
contentCollector := c.Clone()
beginRevist := false
catalogSelector := "div[class=listmain]"
c.OnHTML(catalogSelector, func(elemCatalog *colly.HTMLElement) {
elemCatalog.ForEach("dd>a", func(i int, elemHref *colly.HTMLElement) {
tmpUrl := elemHref.Attr("href ")
if strings.Index(elemHref.Text,"第一章") != -1{
beginRevist = true
if beginRevist{
chapterUrl := elemHref.Request.AbsoluteURL(tmpUrl)
contentCollector.Visit(chapterUrl)
c.OnRequest(func(request *colly.Request) {
fmt.Println("visiting",request.URL.String())
contentSelector := "div[class=showtxt]"
contentCollector.OnHTML(contentSelector, func(eleContent *colly.HTMLElement) {
fmt.Printf("%s\n",eleContent.Text)
c.Visit(superEvolutionUrl)
goqueryhttps://blog.csdn.net/yang731227/article/details/89338745eg1:fcdm爬虫package mainimport ( "fmt" "github.com/PuerkitoBio/goquery" "github.com/gocolly/colly" "strconv" "time")func main(){ t := time.Now() c := colly.NewCollector() content
最近在看go
然后写了个爬虫爬点数据做个后台然后我安卓客户端在实现一套,在爬取过程中先后试过了、http/net获取body解析用正则、得到bod用goquery创建document,直接用gocolly来访问解析,刚好gocolly内部是也用了goquery
由于之前没写过js 只是对html标签有一点了解 所以在网上找到了这篇goquery的选择器·文章有部分修改添加
goquery对爬取到的HTML进行选择和
Golang爬虫框架 colly 简介
colly是一个采用Go语言编写的Web爬虫框架,旨在提供一个能够些任何爬虫/采集器/蜘蛛的简介模板,通过Colly。你可以轻松的从网站提取结构化数据,然后进行数据挖掘,处理或归档
清晰明了的API
速度快(每个内核上的请求数大于1K)
管理每个域的请求延迟和最大并发数
自动cookie和会话处理
同步/异步/ 并行抓取
自动处理非Unicode编码
支持Robots.txt
支持Google App Engine
通过环境变量进行配置
c.OnError(func(_ *colly.Response, err error) {
log.Println("Something went wrong:", err)
})//请求期间发生错误调用
c.OnResponseHeaders(func(r *colly.Respon
昨天正好看到一位朋友分享了一个基于Golang的爬虫框架 — Colly
用Golang写爬虫(六) - 使用colly
Colly是一个基于Golang开发的快速轻量的爬虫框架,支持异步,并行,分布式,还可以处理Cookie和Session
Colly的官方文档写的也很简单明了,建议可以看一下,尤其是提供了很多例子
之前我写过一篇使用net/http和goquery的爬虫,Golang 并发爬虫...