正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码
字符,提取,字符串,正则表达式,去掉,乱码,中文,小写字母,Python,代码
2025-03-25 08:59:24 时间
大家好,又见面了,我是你们的朋友全栈君。
目录
数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=
去掉这些很简单:
1.乱码符号种类较少,用replace()
如果只是很少类型的乱码符号,可以使用replace来替换掉,由于我们只是针对字符串中个别字符进行替换,因此使用str.replace(“#”,””)即可;
#只有一类乱码字符串
df['name'] = df['name'].str.replace("#","")
#连续多个字符一起替换
df['name'] = df['name'].str.replace("#","").str.replace("&","").str.replace("*","")
2.乱码字符种类较多,用re.sub()
import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)( "
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(string_code )
#输出:北京大学beijing985大学
这种方法的清洗,我们使用的其实是正则表达式,上述方法是提取了字符串中的中英文和数字,当然你也可以直提取中文,不同字符对应的 unicode 范围如下所示:
函数 | 说明 |
---|---|
sub(pattern,repl,string) | 把字符串中的所有匹配表达式pattern中的地方替换成repl |
[^**] | 表示不匹配此字符集中的任何一个字符 |
\u4e00-\u9fa5 | 汉字的unicode范围 |
\u0030-\u0039 | 数字的unicode范围 |
\u0041-\u005a | 大写字母unicode范围 |
\u0061-\u007a | 小写字母unicode范围 |
3.提取字符串中的中文字符
import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)( "
#提取中文字符
string_code = re.sub(u"([^\u4e00-\u9fa5])","",string)
print(string_code )
#输出:北京大学大学
4.提取字符串中的中文字符和数字
import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)( "
#提取中文字符和数字
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039])","",string)
print(string_code )
#输出:北京大学985大学
5.提取其他
至于提取其他字符,可以根据正则表达式的 unicode 范围,并参照上述三个例子敲代码。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/142840.html原文链接:https://javaforall.cn
相关文章
- Python 使用 Tornado Web 框架写HTTP接口实例代码(异步+线程池)
- 分享一个简单的 Python 脚本库:将 requests 代码转换成 curl 命令
- python转置矩阵代码_python 矩阵转置[通俗易懂]
- Python绘制时间演变图工具汇总(附代码)
- 只用了20行Python代码就攻破了网站登录
- python中itchat_python打招呼的代码
- YYDS!一行Python代码即可实现数据可视化大屏
- 520专属Python代码来了
- python注释多行代码快捷键_python粘贴快捷键
- Google 内部的 Python 代码风格指南
- 一个 15 年未修补 Python 漏洞让攻击者可以执行代码:35 万个开源代码存储库岌岌可危
- python表白代码-python告白代码,只属于程序员的浪漫
- Linux 上使用 crontab 设置定时任务及运行 Python 代码不执行的解决方案
- WTF!只需一行Python代码即可玩20几款小游戏
- Python表白代码:太秀了,用过的人都找到了对象…【满屏玫瑰盛开】
- Windows上写 Python 代码的王炸组合!
- vscode查看源代码_vscode新建python项目
- python自动补全设置_python代码补全
- 10行python代码做出哪些酷炫的事情?
- python基本代码大全_python怎么运行代码