使用 BeautifulSoup 爬取页面中 script 标签中 type="application/ld+json" 的内容可以这样做:
from bs4 import BeautifulSoup
import requests
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
ld_json = soup.find('script', {'type': 'application/ld+json'})
if ld_json:
print(ld_json.text)
这段代码通过 BeautifulSoup 库解析页面 html 代码,使用 find() 方法查找 type="application/ld+json" 的 script 标签,如果找到则打印出标签中的内容。
如果有多个就用find_all方法来找到所有的ld+json数据。