我正在从一个网站上获取许多页面的html源代码,我需要将其转换为json对象并与json doc中的其他元素相结合。我已经看到了许多关于同一主题的问题,但没有一个是有用的。
My code:
url = "https://totalhash.cymru.com/analysis/?1ce201cf28c6dd738fd4e65da55242822111bd9f"
htmlContent = requests.get(url, verify=False)
data = htmlContent.text
print("data",data)
jsonD = json.dumps(htmlContent.text)
jsonL = json.loads(jsonD)
ContentUrl='{ \"url\" : \"'+str(urls)+'\" ,'+"\n"+' \"uid\" : \"'+str(uniqueID)+'\" ,\n\"page_content\" : \"'+jsonL+'\" , \n\"date\" : \"'+finalDate+'\"}'
上面的代码给了我unicode类型,但是,当我把这个输出放在jsonLint中时,它给了我无效的json错误。谁能帮我理解一下,我怎样才能把完整的html转换成json对象?