我有一个输入文本:text = '146.204.224.152 - feest6811 [21/Jun/2019:15:45:24 -0700] "POST /incentivize HTTP/1.1" 302 4622\n197.109.77.178 - kertzmann3129 [21/Jun/2019:15:45:25 -0700] "DELETE /virtual/solutions/target/web+services HTTP/2.0" 203 26554\n156.127.178.177 - [21/Jun/2019:15:45:27 -0700] "DELETE /interactive/transparent/niches/revolutionize HTTP/1.1output Required :['feest6811','kertzmann3129','-']output getting :[ ' feest6811', ' kertzmann3129',' ']下面是使用的代码user_name = re.findall('(?<=[-])\s[a-zA-Z0-9]*',text)第二个输出所需:['POST /incentivize HTTP/1.1','DELETE /virtual/solutions/target/web+services HTTP/2.0','DELETE /interactive/transparent/niches/revolutionize HTTP/1.1']Output getting :['POST /incentivize HTTP/1.','DELETE /virtual/solutions/target/web+services HTTP/2.','DELETE /interactive/transparent/niches/revolutionize HTTP/1.']以下是用于上述第二个输出的代码request = re.findall('[a-zA-Z]*\s/[a-zA-Z].*[.\+]',text)正如你所看到的,我在输出 1 和 2 中都遗漏了一些小东西在输出 1 中,当我们没有数据时,我缺少“-”符号,而在第二个输出中,我无法读取“.”之后的最后一个单词。任何人都可以建议对代码进行必要的更改吗?
3 回答
侃侃无极
TA贡献2051条经验 获得超10个赞
慕容3067478
TA贡献1773条经验 获得超3个赞
首先,您需要稍微调整。你需要但是\s
与lookbehind
user_name = re.findall('(?<=[-]\s)[a-zA-Z0-9]*', text) print(user_name)
但这会产生:
['feest6811', 'kertzmann3129', '']
您无法将“-”作为返回列表的第三个值,因为后视从来不是匹配的一部分。您想要在最终匹配中输入的第三个-
输入字符串findall
位于以下上下文中:
156.127.178.177 - [21/Jun/2019:15:45:27 -0700]
在本例中返回 '' 的正则表达式同样可以很好地指示输入字符串中是否存在 '-' 以及相应的空子[a-zA-Z0-9]*
表达式匹配项。如果这确实困扰您,您可以随时这样做:
user_name = re.findall('(?<=[-]\s)[a-zA-Z0-9]*', text) user_name = ['-' if x == '' else x for x in user_name] # convert '' to '-' print(user_name)
印刷:
['feest6811', 'kertzmann3129', '-']
对于第二个使用:
request = re.findall(r'[a-zA-Z]*\s/[a-zA-Z].*?/\d\.\d', text)
一只甜甜圈
TA贡献1836条经验 获得超5个赞
我喜欢使用 Regex101.com 来构建这样的正则表达式。
请尝试以下操作
1.这是更正后的版本:https ://regex101.com/r/bFDnSm/2
请注意正则表达式更改为
(?<=[-]\s)[a-zA-Z0-9]*
这是更正后的版本: https ://regex101.com/r/4uLVUb/1
请注意正则表达式更改为:
[a-zA-Z]*\s/[a-zA-Z+/]+\s[AZ]+/[0-9.]+
您应该发现它非常广泛,甚至可以使用更多示例。
添加回答
举报
0/150
提交
取消