我已经尝试了以下脚本,以 删除HTML/标签 和 剩余的输出 .
Input file: (test.txt)
<!DOCTYPE html>
<script>
function myFunction() {
document.getElementById("demo").innerHTML = "Paragraph changed.";
</script>
<title>Sample page</title>
<style>
html { color: #837456; }
body { background: white; }
</style>
</head>
<p>Hello here!</p>
</body>
</html>
cat test.txt | sed 's/$/©/' | tr -d '\n' | sed 's/<script.*<\/script>//g' | sed 's/<[^>]*>//g' | sed 's/©/\n/g' | sed '/^ *$/d' | sed 's/^ *//'
而输出恰好是。