网络字体反爬之起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看。这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所以今天就给大家带来这篇---起点中文网小说爬取。可视化我们放到下一集。
安装使用
安装和基本使用请查看pyspider中文文档,我们这篇主要不是介绍pyspider哦。Mac安装的过程中出现了一些问题,请看Mac安装pycurl失败,装好以后使用pyspider all启动。然后打开浏览器输入:http://localhost:5000/ 创建以后,我们就开始分析并编写起点爬虫了。
爬虫编写
打开起点中文网(https://www.qidian.com/),选择全部作品并按照字数排序 右键检查元素,因为是静态网页,所以我们就直接解析网页元素就行了,可以使用BeautifulSoup、PyQuery、xpath或者正在表达式。我习惯用xpath,所以就采这个坑了。 Chrome可自动生成xpath 但是生成的大部分情况下都不是很合适,比如/html/body/div[2]/div[5]/div[2]/div[2]/div/ul/li[1]/div[2]/h4/a,你看这有多长,还是自己写吧,chrome浏览器可以帮我们验证xpath这个是很方便的,有的人是按照xpathhelper插件,我觉得原生就很好用了, CTRL+F 按照此方式我们匹配到小说名、作者、更新状态、更新时间、字数信息然后存储到数据库。 pyspider这个可视化调试的功能确实非常方便,但是我们看到了什么?框框?字数竟然是框框?我就懵逼了 网页元素里看到的竟然也是这个???我不死心,再看看网页源码 好像有些什么编码,但是为什么xpath查出来的是框框的,我百思不得骑姐,试了各种方式发现确实是方框,肿么办捏?我考虑可以把获取到的元素的html源码打印出来,然后再提取一下,是不是可以呢? OK,得到我们需要的数据了,但是这也不是小说字数呀,这就是我写这篇文章的原因了,我们看到上面元素查看截图中的font-face了,里面有一些.ttf、.woff,这些我们应该知道是字体文件,下载下来看一下 这到底是什么鬼?不明白,那就问谷哥和度姐吧,然后我就知道了字体反爬这个概念,涨姿势呀!我明白了一个道理,要想涨姿势,就得多尝试,不然你怎么能知道还有这种姿势呢?我的意思大家都懂吧,然后我就找到了fonttools这个python库,但是还是走了很多弯路,里面提供的命令行识别不了,最后还是通过源码调试找到了getBestCmap这个接口 下载woff字体文件,然后通过BytesIO转化为内存文件,使用TTFont处理