Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
lmpythw-zh
提交
bdfab8ef
L
lmpythw-zh
项目概览
OpenDocCN
/
lmpythw-zh
大约 1 年 前同步成功
通知
0
Star
18
Fork
5
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
L
lmpythw-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
bdfab8ef
编写于
8月 12, 2017
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
ex31
上级
6d761ffb
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
104 addition
and
0 deletion
+104
-0
ex31.md
ex31.md
+104
-0
未找到文件。
ex31.md
0 → 100644
浏览文件 @
bdfab8ef
# 练习 31:正则表达式
> 原文:[Exercise 31: Regular Expressions](https://learncodethehardway.org/more-python-book/ex31.html)
> 译者:[飞龙](https://github.com/wizardforcel)
> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
正则表达式(RegEx)是一种简洁的方式,用于确定字符序列应如何在字符串中匹配。通常大家都认为它们是“可怕”的,但是,正如你所知道的,任何包含在恐惧中的东西通常都不是这样。正则表达式的事实是,它们是大约八个符号的集合,告诉计算机如何匹配模式串。简单来说,他们很容易理解。人们遇到困难的地方是,尝试使用难以置信的复杂的正则表达式,其中解析器实际上会更好。一旦你明白了这八个符号和正则表达式的限制,你就会看到它们根本不可怕。
我打算让你记忆更多东西,使你的的大脑为讨论做好准备。
> `^`
> **锚定字符串开头**。只有字符串刚好位于开头,它才会匹配。
> `$`
> **锚定字符串末尾**。只有字符串到达了末尾,它才会匹配。
> `.`
> **任何单个字符**。接受任何单个字符的输入。
> `?`
> 正则表达式的**之前的部分是可选的**,所以`A?`的意思是可选的字符`A`。
> `*`
> 之前的部分是零个或多个(**任意个**)。选取正则表达式的之前的部分,重复接受或者跳过它。`A*`会接受`"AAAAAAA"`或者`"BQEFT"`,因为它里面有零个`A`。
> `+`
> 之前的部分是一个或多个(**至少一个**)。和`*`类似,但是只接受拥有一个或多个这种字符。`A+`会匹配`"AAAAAAA"`,但不是`"BQEFT"`。
> `[X-Y]`
> `X`到`Y`的**字符范围**,接受任何范围中列出的字符串。`[A-Z]`表示所有大写英文字母。许多常见字符范围拥有`\`快捷方式,你可以使用它来代替。
> `()`
> **捕获**这个正则表达式的部分,便于稍后使用。许多正则表达式库将其用于替换、提取或修改文本。捕获会选取正则表达式的`()`中的部分,并保存它便于以后使用。之后许多库可以让你引用这些捕获。如果你使用`([A-Z]+)`,它会捕获一个或多个大写英文单词。
Python 的
[
`re`库
](
https://docs.python.org/3/library/re.html
)
列出了一些更多的符号,但大多都是这八个的一些修饰符,或者不在正则表达式库中经常发现的额外功能。你将快速记住这八个来起步,重点是粗体的部分(锚定末尾,之前部分可选),以便你可以快速回忆它们并解释他们的作用。
记住这些符号后,请查看以下正则表达式并将其翻译成中文,并使用 Python
`re`
库来尝试列出的字符串,或你可以想到的任何其他字符串。
> `".*BC?$"`
> `helloBC`, `helloB`, `helloA`, `helloBCX`
> `"[A-Za-z][0-9]+"`
> `A1232344`, `abc1234`, `12345`, `b493034`
> `"^[0-9]?a*b?.$"`
> `0aaaax`, `aaab9`, `9x`, `88aabb`, `9zzzz`
> `"A+B+C+[xyz]*"`
> `AAAABBCCCCCCxyxyz`, `ABBBBCCCxxxx`, `ABABABxxxx`
一旦你翻译了它们,使用Python
`re`
模块,尝试在 Shell 中尝试它们,如下:
```
py
>>>
import
re
>>>
m
=
re
.
match
(
r
".*BC?$"
,
"helloB"
).
span
()
>>>
re
.
match
(
r
".*BC?$"
,
"helloB"
).
span
()
(
0
,
6
)
>>>
re
.
match
(
r
"[A-Za-z][0-9]+"
,
"A1232344"
).
span
()
(
0
,
8
)
>>>
re
.
match
(
r
"[A-Za-z][0-9]+"
,
"abc1234"
).
span
()
Traceback
(
most
recent
call
last
):
File
"<stdin>"
,
line
1
,
in
<
module
>
AttributeError
:
'NoneType'
object
has
no
attribute
'span'
>>>
re
.
match
(
r
"[A-Za-z][0-9]+"
,
"1234"
).
span
()
Traceback
(
most
recent
call
last
):
File
"<stdin>"
,
line
1
,
in
<
module
>
AttributeError
:
'NoneType'
object
has
no
attribute
'span'
>>>
re
.
match
(
r
"[A-Za-z][0-9]+"
,
"b493034"
).
span
()
(
0
,
7
)
>>>
```
对于任何不匹配,你会得到
`AttributeError: 'NoneType'`
,因为当你的正则表达式不匹配时,
`re.match`
函数返回
`None`
。
## 挑战练习
挑战是尝试使用你的 FSM 模块来实现一个简单的正则表达式,至少执行三个操作。这将是一个困难的挑战,但使用 Python
`re`
库来帮助你规划和测试此正则表达式的实现。然后,一旦你知道如何实现它,永远不要这样做了。人生苦短,不要做计算机已经擅长的事情。
## 研究性学习
+
扩展你的记忆,来包括 Python
`re`
库文档中的所有可能的符号。
+
如果你想要匹配一个
`*`
字符,那么你可以用
`\*`
来转义它。大多数其他符号也有类似的东西。
+
确保你知道如何使用
`re.ASCII`
,因为某些解析的需求需要它。
## 深入学习
看看
[
`regex`库
](
https://pypi.python.org/pypi/regex/
)
,如果你需要 Unicode 支持,那么这个更好。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录