result_list = []
# 正则,符合条件的中文
reg_name = re.compile(r'[\u4e00-\u9fa5]*[a-zA-Z,,0-9~]*[\u4e00-\u9fa5]+')
# 获取文件路径
def filePath(path):
for name in os.scandir(path):
# 有文件夹递归
if name.is_dir():
filePath(name.path)
else:
# js后缀的文件都读取过滤出来
if bool(re.search('.js',name.path)):
fileRead(name.path)
fileWrite('F:/py_tool/tool/zh.json')
# 读文件
def fileRead(read_path):
# 打开文件
print(read_path)
file_data = open(read_path,encoding='utf8')
file_read_data = file_data.read()
# 获得列表并去重
file_data_list = list(set(reg_name.findall(file_read_data)))
# 数据正则数据处理
for result in file_data_list:
result_list.append(result.replace("'",''))
print(result_list)
# 关闭文件
file_data.close()
# 写文件
def fileWrite(write_path):
# 打开文件
with open(write_path,'w',encoding='utf8') as file_data:
file_data.write(str(result_list))
file_data.close()
filePath(r'F:\ti-tim-web\src\pages')
# 这里的r是转义的没有这个 r 会下面这个错
OSError: [WinError 123] 文件名、目录名或卷标语法不正确。: 'F:\ti-tim-web\\src\\pages'