添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

我在这里找到了,但我不知道如何继续这个问题。

5 个评论
这是否回答了你的问题? Sed从HTML文件中删除标签
Let perl be with you - `perl -0777 -pe 's/<.*?>//sg' test.html
如果你想删除空行,那么 perl -0777 -pe 's/<.*?>//sg;s/\s+\n+/\n/g' test.html
我只能用sed:/
html
linux
bash
sed
Gsomeone
Gsomeone
发布于 2020-03-07
1 个回答
user12938074
user12938074
发布于 2020-03-07
已采纳
0 人赞同

我已经尝试了以下脚本,以 删除HTML/标签 剩余的输出 .

Input file: (test.txt)

<!DOCTYPE html>
    <script>
      function myFunction() {
        document.getElementById("demo").innerHTML = "Paragraph changed.";
    </script>
    <title>Sample page</title>
    <style>
      html { color: #837456; }
      body { background: white; }
    </style>
  </head>
    <p>Hello here!</p>
  </body>
</html>
cat test.txt | sed 's/$/©/' | tr -d '\n' | sed 's/<script.*<\/script>//g' | sed 's/<[^>]*>//g' | sed 's/©/\n/g' | sed '/^ *$/d' | sed 's/^ *//'

而输出恰好是。