ex31

bdfab8ef · wizardforcel · 6d761ffb · bdfab8ef
隐藏空白更改
内联并排

Showing with 104 addition and 0 deletion

ex31.md ex31.md +104 -0

未找到文件。
--- a/ex31.md
+++ b/ex31.md
+# 练习 31：正则表达式
+
+> 原文：[Exercise 31: Regular Expressions](https://learncodethehardway.org/more-python-book/ex31.html)
+
+> 译者：[飞龙](https://github.com/wizardforcel)
+
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+
+正则表达式（RegEx）是一种简洁的方式，用于确定字符序列应如何在字符串中匹配。通常大家都认为它们是“可怕”的，但是，正如你所知道的，任何包含在恐惧中的东西通常都不是这样。正则表达式的事实是，它们是大约八个符号的集合，告诉计算机如何匹配模式串。简单来说，他们很容易理解。人们遇到困难的地方是，尝试使用难以置信的复杂的正则表达式，其中解析器实际上会更好。一旦你明白了这八个符号和正则表达式的限制，你就会看到它们根本不可怕。
+
+我打算让你记忆更多东西，使你的的大脑为讨论做好准备。
+
+> `^`
+
+> **锚定字符串开头**。只有字符串刚好位于开头，它才会匹配。
+
+> `$`
+
+> **锚定字符串末尾**。只有字符串到达了末尾，它才会匹配。
+
+> `.`
+
+> **任何单个字符**。接受任何单个字符的输入。
+
+> `?`
+
+> 正则表达式的**之前的部分是可选的**，所以`A?`的意思是可选的字符`A`。
+
+> `*`
+
+> 之前的部分是零个或多个（**任意个**）。选取正则表达式的之前的部分，重复接受或者跳过它。`A*`会接受`"AAAAAAA"`或者`"BQEFT"`，因为它里面有零个`A`。
+
+> `+`
+
+> 之前的部分是一个或多个（**至少一个**）。和`*`类似，但是只接受拥有一个或多个这种字符。`A+`会匹配`"AAAAAAA"`，但不是`"BQEFT"`。
+
+> `[X-Y]`
+
+> `X`到`Y`的**字符范围**，接受任何范围中列出的字符串。`[A-Z]`表示所有大写英文字母。许多常见字符范围拥有`\`快捷方式，你可以使用它来代替。
+
+> `()`
+
+> **捕获**这个正则表达式的部分，便于稍后使用。许多正则表达式库将其用于替换、提取或修改文本。捕获会选取正则表达式的`()`中的部分，并保存它便于以后使用。之后许多库可以让你引用这些捕获。如果你使用`([A-Z]+)`，它会捕获一个或多个大写英文单词。
+
+Python 的[`re`库](https://docs.python.org/3/library/re.html)列出了一些更多的符号，但大多都是这八个的一些修饰符，或者不在正则表达式库中经常发现的额外功能。你将快速记住这八个来起步，重点是粗体的部分（锚定末尾，之前部分可选），以便你可以快速回忆它们并解释他们的作用。
+
+记住这些符号后，请查看以下正则表达式并将其翻译成中文，并使用 Python `re`库来尝试列出的字符串，或你可以想到的任何其他字符串。
+
+> `".*BC?$"`
+
+> `helloBC`, `helloB`, `helloA`, `helloBCX`
+
+> `"[A-Za-z][0-9]+"`
+
+> `A1232344`, `abc1234`, `12345`, `b493034`
+
+> `"^[0-9]?a*b?.$"`
+
+> `0aaaax`, `aaab9`, `9x`, `88aabb`, `9zzzz`
+
+> `"A+B+C+[xyz]*"`
+
+> `AAAABBCCCCCCxyxyz`, `ABBBBCCCxxxx`, `ABABABxxxx`
+
+一旦你翻译了它们，使用Python `re`模块，尝试在 Shell 中尝试它们，如下：
+
+```py
+>>> import re
+>>> m = re.match(r".*BC?$", "helloB").span()
+>>> re.match(r".*BC?$", "helloB").span()
+(0, 6)
+>>> re.match(r"[A-Za-z][0-9]+", "A1232344").span()
+(0, 8)
+>>> re.match(r"[A-Za-z][0-9]+", "abc1234").span()
+Traceback (most recent call last):
+  File "<stdin>", line 1, in <module>
+AttributeError: 'NoneType' object has no attribute 'span'
+>>> re.match(r"[A-Za-z][0-9]+", "1234").span()
+Traceback (most recent call last):
+  File "<stdin>", line 1, in <module>
+AttributeError: 'NoneType' object has no attribute 'span'
+>>> re.match(r"[A-Za-z][0-9]+", "b493034").span()
+(0, 7)
+>>>
+```
+
+对于任何不匹配，你会得到`AttributeError: 'NoneType'`，因为当你的正则表达式不匹配时，`re.match`函数返回`None`。
+
+## 挑战练习
+
+挑战是尝试使用你的 FSM 模块来实现一个简单的正则表达式，至少执行三个操作。这将是一个困难的挑战，但使用 Python `re`库来帮助你规划和测试此正则表达式的实现。然后，一旦你知道如何实现它，永远不要这样做了。人生苦短，不要做计算机已经擅长的事情。
+
+## 研究性学习
+
+   扩展你的记忆，来包括 Python `re`库文档中的所有可能的符号。
+   如果你想要匹配一个`*`字符，那么你可以用`\*`来转义它。大多数其他符号也有类似的东西。
+   确保你知道如何使用`re.ASCII`，因为某些解析的需求需要它。
+
+## 深入学习
+
+看看[`regex`库](https://pypi.python.org/pypi/regex/)，如果你需要 Unicode 支持，那么这个更好。
+