python+正则表达式

首页 >> 正文

python+正则表达式

来源：baiyundou.net 日期：2024-09-21

大家好，我是皮皮。

一、前言

前几天在Python最强王者交流群【哎呦喂是豆子～】问了一个Pandas数据提取的问题。问题如下图所示：

大佬们为啥一样一样的正则表达式 for循环就可以出结果用apply(lambda x:re.findall(pattern,x)) 去提取就提取不出来？

图一：

图二：

二、实现过程

这里【隔壁????山楂】给了一个指导，如下所示：图一前面没有r，图二你这里有r。

这个方法顺利地解决了粉丝的问题。

没有'r'反斜杠是转义字符有'r'反斜杠不是转义字符一般的可以使用\\\\双斜杠去匹配。

如果你也有类似这种数据分析的小问题，欢迎随时来交流群学习交流哦，有问必答！

三、总结

大家好，我是皮皮。这篇文章主要盘点了一个Pandas数据提取的问题，文中针对该问题，给出了具体的解析和代码实现，帮助粉丝顺利解决了问题。

最后感谢粉丝【哎呦喂是豆子～】提出的问题，感谢、【隔壁????山楂】、【瑜亮老师】、【添砖java】给出的思路，感谢【莫生气】、【冯诚】等人参与学习交流。

【提问补充】温馨提示，大家在群里提问的时候。可以注意下面几点：如果涉及到大文件数据，可以数据脱敏后，发点demo数据来（小文件的意思），然后贴点代码（可以复制的那种），记得发报错截图（截全）。代码不多的话，直接发代码文字即可，代码超过50行这样的话，发个.py文件就行。

","gnid":"9610f04f80110d76e","img_data":[{"flag":2,"img":[{"desc":"","height":"639","title":"","url":"https://p0.ssl.img.360kuai.com/t0158a0937d1f9fd34e.png","width":"1080"},{"desc":"","height":"714","title":"","url":"https://p0.ssl.img.360kuai.com/t01266054d644d469e7.png","width":"1071"},{"desc":"","height":"707","title":"","url":"https://p0.ssl.img.360kuai.com/t018b4e5d0acfd31954.png","width":"890"},{"desc":"","height":"585","title":"","url":"https://p0.ssl.img.360kuai.com/t01aaa231a595094452.png","width":"548"}]}],"original":0,"pat":"art_src_0,fts0,sts0","powerby":"cache","pub_time":1706536233000,"pure":"","rawurl":"http://zm.news.so.com/a8c3eb7aabcca153e33ab6b6be1f1b87","redirect":0,"rptid":"3082d696471b5c42","rss_ext":[],"s":"t","src":"Python网络爬虫与数据挖掘","tag":[{"clk":"kscience_1:最强王者","k":"最强王者","u":""}],"title":"为啥一样一样的正则表达式，去提取就提取不出来？

顾点味1464python正则表达式截取一段内容 -
鲁咐净17058857898 ______ print(re.findall(r'>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}).*?(.*?)

顾点味1464python正则表达式如何找到指定字符后面完整的数字字符串 -
鲁咐净17058857898 ______ 使用re模块的search函数,能过正则表达式查找,代码如下: import re reg=re.compile(r＂(?<=指定字符)\d+＂) match=reg.search(＂待查找文本＂) print match.group(0)(?<=指定字符)此部分定位指定字符,查找但不包含 \d+此部分为一个以上数字这样就可以查找出数字字符串

顾点味1464python怎么用正则表达式提取中文 -
鲁咐净17058857898 ______ Python re正则匹配中文,其实非常简单,把中文的unicode字符串转换成utf-8格式就可以了,然后可以在re中随意调用 unicode中中文的编码为/u4e00-/u9fa5,因此正则表达式u”[\u4e00-\u9fa5]+”可以表示一个或者多个中文字符>>> import re>>>...

顾点味1464Python正则表达式如何进行字符串替换 -
鲁咐净17058857898 ______ Python正则表达式在使用中会经常应用到字符串替换的代码.有很多人都不知道如何解决这个问题源码天空,下面的代码就告诉你其实这个问题无比的简单,希望你有所收获.1.替换所有匹配的子串用newstring替换subject中所有与正则表达式...

顾点味1464python正则表达式从一行汉字中提取出数字 -
鲁咐净17058857898 ______ 描述的不是特别清楚 .re.sub(＂(?isu)省份_\s+＂, ＂省份＂, your_utf8_string)上面应该可以的. 当然也可以变型,比如下面 re.sub(u＂(?isu)省份_\s{2}＂, u＂省份＂, your_unicode_string)

顾点味1464python中正则表达式中的^怎么用 -
鲁咐净17058857898 ______ 你的意思是匹配字符串中的“^”,还是正则表达式中 ^ 的用法;# 看你的描述大概是第二种# ^ 在正则表达式中表示匹配以 xx 开头的字符# 比如: import re r = re.compile(r＂^\d+＂) s = ＂124,b45＂ s2 = ＂as12＂ r.findall(s) # ['124'] r.findall(s2) # [] 空数组,字符不是以数字开头

顾点味1464Python怎么用正则表达式提取字符串中的数字和子字符串 -
鲁咐净17058857898 ______ import re re.findall(＂\d+＂,字符串)

顾点味1464python正则表达式函数match和search的区别详解 -
鲁咐净17058857898 ______ match()和search()都是python中的正则匹配函数,那这两个函数有何区别呢?match()函数只检测RE是不是在string的开始位置匹配, search()会扫描整个string查找匹配, 也就是说match()只有在0位置匹配成功的话才有返回,如果...

顾点味1464如何用python使用正则表达式抽取html的url?
鲁咐净17058857898 ______ [mw_shl_code=python,true]#coding=utf-8import reimport urlliburl = ＂ http://www.baidu.com＂s=urllib.urlopen(url).read()ss = s.replace(＂＂,＂＂) urls=re.findall('',ss,re.I)for i in urls: print i[/mw_shl_code]

顾点味1464python 正则表达式提取字符串 -
鲁咐净17058857898 ______ >>> str_ = 'a100b30\thttp://aa.com/aaaa.html\n' # 'str'是内建方法,不宜做变量名 >>> import re >>> re_str = '.*\t(.*)\n' >>> re_pat = re.compile(re_str) >>> search_ret = re_pat.search(str_) >>> if search_ret: search_ret.groups() ('http://aa.com/aaaa.html',)简单的呢,就这样. Python文档中对正则讲的挺好的. 如果要准确匹配URL,网上有很多这样的正则,我没用过,就不多说了.

（编辑：自媒体）