我正在与西班牙语的OCR项目一起工作。相机在一行文本中捕捉不同的帧。该行文本包含这个:
Este texto,es una prueba del dispositivo lector para no videntes。
经过一些操作后,我得到如下字符串:
s1 = "Este texto, es una p!"
s2 = "fste texto, es una |prueba u.-"
s3 = "jo, es una prueba del dispo‘"
s4 = "prueba del dispositivo \ec"
s5 = "del dispositivo lector par:"
s6 = "positivo lector para no xndev"
s7 = "lector para no videntes"
s8 = "¡r para no videntes."我想加入字符串,以便可以像最后一个字符串那样获取扫描行的文本:
sf = "Este texto, es una prueba del dispositivo lector para no videntes."开始时,我尝试在两个字符串之间使用SequenceMatcher,但它不起作用:
# -*- coding: utf-8 -*-
from difflib import SequenceMatcher as sq
s1 = "Este texto, es una p!"
s2 = "fste texto, es una prueba u.-"
match = sq(None, s1, s2).find_longest_match(0, len(s1), 0, len(s2))
print unicode(s1 + s2[match.b + match.size:])结果包含无效字符,如|或!:
>>>Este texto, es una p!|prueba u.-s2和s3之间:
>>>fste texto, es una |prueba u.-prueba del dispo‘等我在Windows 7上使用python 2.7。
我正在与西班牙语的OCR项目一起工作。相机在一行文本中捕捉不同的帧。该行文本包含这个:Este texto,es una prueba del dispositivo lector para no videntes。经过一些操作后,我得到如下字符串:s1 = "Este texto, es una p!"s2 = "fste texto, es una |prueba u.-"s3 = "jo, ...
' '.join(line.split())
例如:’line dd’,运行line.split()得到只有两个元素的列表[‘line’,’dd’]
以上这篇
python
删除
字符串
中
连续
多个
空格并保留一个的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持软件开发网。
您可能感兴趣的文章:
Python
去除
字符串
前后空格的几种方法
python
实现指定
字符串
补全空格、前面填充0的方法
python
清除
字符串
前后空格函数的方法
python
清除
字符串
中
间空格的实例讲解
Python
去除、替换
字符串
空格的处理方法关于P
s.strip(rm)
删除
s
字符串
中
开头、结尾处,位于 rm
删除
序列的
字符
s.lstrip(rm)
删除
s
字符串
中
开头处,位于 rm
删除
序列的
字符
s.rstrip(rm)
之前听说停用词表,没有上手使用过,真正操作的时候发现有很多东西没有学透彻。这里总结一下,去停用词的思想:在原始文本集
中
去掉不需要的词汇,
字符
。虽然有通用的停用词表,但是如果想提高后续的分词效果,还是自己建立停用表比较好。
建立停用词表,实际上就是在txt
中
,输入想要
删除
的词汇,每个词汇用空格隔开即可。可以换行。
下面是我自己操作的效果图,及代码。方便自己及大家查看。
# 停用词表 [] ...
最近接了一个数学建模的小项目,其
中
一问是从大量数据
中
筛除出错的数据和
无效
数据,打开Excel一看,好家伙——有二十多万个行,十五列,上百万的数据,
无效
数据的分布还不均匀,刁钻古怪,这就很让人犯难。
更坑爹的是还有干扰项,这要是用Excel的查找替换功能能整得整到猴年马月去啊,幸好……我们学过流畅的
python
!
下面我将用
python
解决上述问题,废话不多说,先上代码。
// A code block
var foo = 'bar';
import numpy as np
import panda
Python
中
如何在DataFrame
中
删除
包含
无效
值(缺失值)的行?如何对包含
无效
值(缺失值)的行进行填充?
一、
Python
的DataFrame
中
删除
包含
无效
值(缺失值)的行
语法如下:df1.dropna(),返回值为
删除
包含nan行的dataframe对象
二、如何填充DataFrame
中
的
无效
值或缺失值
语法为:df1.fillna(value=100)。效果即为将列表
中
所有值为...