添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
首发于 python爬虫
教你通杀字体反爬?

教你通杀字体反爬?

声明

本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!


背景

随着科技的快速发展,网络数据的获取也面临着瓶颈,例如字体反爬,从刚开始的静态字体,到目前主流的动态字体,这种方式的反爬是根据一套或者多套字体通过页面映射替换而成的,无法通过自动化去获取(例如:Selenium),这给很多新入门的小伙伴带来了很大困难。本篇文章通过聚类算法——KNN去训练,预测得到目标字体,进行网页替换即可。

关于什么是字体反爬,可以参考 字体反爬原理与Knn解决方案

本篇以 好租 为案例,熟悉字体反爬

1、运行环境与所需工具

本次运行环境为Python3.8,所需包如下:

import requests
import re
import base64
from fontTools.ttLib import TTFont
import pandas as pd
import time
import numpy as np
import pandas as pd