添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

image

摄影:产品经理 今年自己做的第一锅小龙虾

假设我们通过爬虫获取了上万条不规范的地址信息:



杭州市滨江区网商路599号东城区和平里街道上海市徐汇区 xx 小区...

现在老板想让你把这些地址统一格式化为标准的省市区地址格式,并写入到 Excel 中。你应该如何操作?

有一个库,叫做 cpca ,可以非常方便地解决这个问题。我们来写一段非常简单的代码,看看这个库有多简单:


import cpca
address_list = '''杭州市滨江区网商路599号东城区和平里街道上海市徐汇区 xx 小区'''.split('\n')
df = cpca.transform(address_list)print(df)

image

这个库能自动根据你写的部分地址,推测出这个地址所在的省市区。即使你把省市区省略了一部分,或者是使用简称,它也能识别出来,如下图所示:

image

cpca.transform 返回的是一个 Pandas 的 DataFrame 对象,我们可以调用它的 .to_csv() 直接生成 csv 文件。如果我们再安装一个第三方库 openpyxl ,还可以直接生成 Excel 文件,如下图所示:

image

大家可以访问 GitHub - DQinYuan/chinese_province_city_area_mapper: 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块 [1] 查看更多用法,包括如何处理不同城市的同名区,并且还可以绘制热力图。

Matlab代码批处理中国地面气象日值数据集(2400站点数据集),提取所需省份全部站点数据
Matlab代码批处理中国地面气象日值数据集(2400站点数据集),提取所需省份全部站点数据
基于python分析微信好友的性别分布,区域分布,词云分析,头像拼接
的工资大体是你最好的五个朋友的平均数(可以视情况去除一个最高值和最低值,万一人家拆迁了),那性格是不是大多也可以这么推理呢 你知道你的好友签名正能量多还是负能量多吗, 你知道你的好友全国分布吗
本月,Data Lake Analytics(https://et.aliyun.com/bdad/datalake)发布了一批新增的内置函数,涉及身份证地域查询、星座查询、中文拼音转换、Json数组内容字段提取、互联网坐标系经纬度转换等。 版权声明:转载请注明出处:http://blog.csdn.net/dajitui2024 https://blog.csdn.net/dajitui2024/article/details/79396476