添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
彷徨的机器人  ·  stringvar转变成str ...·  2 天前    · 
腼腆的柠檬  ·  python ...·  2 天前    · 
有情有义的大白菜  ·  python ...·  2 天前    · 
怕考试的鼠标  ·  python3 ...·  1 年前    · 
爱吹牛的香烟  ·  python - How to fix ...·  1 年前    · 
一身肌肉的烈马  ·  linker - How to ...·  1 年前    · 

写这个jupyter的原因是好几次自己爬完新闻之后,发现中间有些是html标签代码或者其他多余的英文字符,自己也不想保留,那么这时候一个暴力简单的方法就是使用 unicode 范围 \u4e00 - \u9fff 来判别汉字

unicode 分配给汉字(中日韩越统一表意文字)的范围为 4E00-9FFF
(目前 unicode 6.3 的标准已定义到 9FCC )

# 判断字符是否全是中文
def ishan(text):
    # for python 3.x
    # sample: ishan('一') == True, ishan('我&&你') == False
    return all('\u4e00' <= char <= '\u9fff' for char in text)
 
ishan("asas112中国")
 
False
 
# 提取中文字符
import re
def extract_chinese(txt):
    pattern = re.compile("[\u4e00-\u9fa5]")
    return "".join(pattern.findall(txt))
extract_chinese("任命的。</p> <p>3G资本成立于2004年,是")
 
'任命的资本成立于年是'
 

还有一个是过滤HTML标签的强大工具

HTMLParser

from html.parser import HTMLParser
def strip_tags(html):
    Python中过滤HTML标签的函数
    >>> str_text=strip_tags("<font color=red>hello</font>")
    >>> print str_text
    hello
    html = html.strip()
    html = html.strip("\n")
    result = []
    parser = HTMLParser()
    parser.handle_data = result.append
    parser.feed(html)
    parser.close()
    result=''.join(result)
    result = result.replace("\n", "")
    return result
 
strip_tags("<font color=red>hello</font>")
 
'hello'
                                      写这个jupyter的原因是好几次自己爬完新闻之后,发现中间有些是html标签代码或者其他多余的英文字符,自己也不想保留,那么这时候一个暴力简单的方法就是使用 unicode 范围 \u4e00 - \u9fff 来判别汉字unicode 分配给汉字(中日韩越统一表意文字)的范围为 4E00-9FFF(目前 unicode 6.3 的标准已定义到 9F...
				
python提取字符串的中文或英文re中的sub函数提取中文提取英文提取数字re中的findall函数提取中文提取英文提取数字re中的compile函数同时匹配中英文数字去除其他字符 提取中英文是我们在做数据处理时候经常使用的,最高效的做法就是通过正则判断了,下面是我写的笔记,希望对你有用 re中的sub函数 使用Python 的re模块,re模块提供了re.sub用于替换字符串中的匹配项。 re.sub(pattern, repl, string, count=0) 参数说明: text = "中国面积为960万平方公里" regStr = ".*?([\u4E00-\u9FA5]+).*?" ch = re.findall(regStr, text) # 返回列表 if ch: print(ch) def main(): str = input("请输入字符串:") chinese = re.findall('[\u4e00-\u9fa5]', str) # 汉字的范围为"\u4e00-\u9fa5" print(chinese) if __name__ == '__main__': main()
今天,有同事问我怎么批量从Excel某一列字符串中提取中文。以前我都是百度Excel使用技巧或者函数之类的,但是这次没有很好的解决方案,都是说用`TEXTJOIN(,,(IF(LENB(MID(A1,ROW(A1:A100),1))=2,MID(A1,ROW(A1:A100),1),"")))`函数的,本人测试后发现效果并不好,而且只能wps使用。   Python简洁又有强大的生态,可以使用win32com库来实现提取字符串的中文字符。本篇可以实现对Excel的读取、遍历、修改和保存操作,实现自己想要的效
Python中,你可以使用多种方法来提取特定的字符串。以下是一些常用的方法: 1. 使用字符串的索引:如果你知道要提取字符串的位置,你可以使用索引来获取它。例如,如果你要提取字符串的第一个字符,可以使用 `string[0]`。 2. 使用切片(slicing):切片是一种获取字符串的子集的方法。你可以使用 `string[start:end]` 的语法来获取从 `start` 索引到 `end` 索引之间的子字符串。注意,`start` 索引是包含在结果中的,而 `end` 索引是不包含在结果中的。 3. 使用正则表达式:如果你需要根据某种模式来提取字符串,你可以使用正则表达式。Python的 `re` 模块提供了处理正则表达式的功能。 这只是提取特定字符串的几种常见方法,具体使用哪种方法取决于你的需求。如果你能提供更具体的要求,我可以给你提供更详细的代码示例。