Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
nlp-py-2e-zh
提交
9f8856a7
N
nlp-py-2e-zh
项目概览
OpenDocCN
/
nlp-py-2e-zh
大约 1 年 前同步成功
通知
2
Star
69
Fork
24
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
N
nlp-py-2e-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
9f8856a7
编写于
12月 29, 2020
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2020-12-29 15:47:05
上级
3a68cdb8
变更
7
展开全部
隐藏空白更改
内联
并排
Showing
7 changed file
with
107 addition
and
107 deletion
+107
-107
0.md
0.md
+7
-7
1.md
1.md
+2
-2
2.md
2.md
+1
-1
3.md
3.md
+94
-94
4.md
4.md
+1
-1
5.md
5.md
+1
-1
9.md
9.md
+1
-1
未找到文件。
0.md
浏览文件 @
9f8856a7
...
...
@@ -33,7 +33,7 @@ NLTK 自带大量文档。作为本书的补充,`http://nltk.org/`网站提供
## Python 3 和 NLTK 3
本书的这个版本已更新并支持 Python 3 和 NLTK 3。Python 3 包括一些重大的变化
︰
本书的这个版本已更新并支持 Python 3 和 NLTK 3。Python 3 包括一些重大的变化
:
*
`print`
语句现在是函数,因此需要括号;
*
许多函数现在返回迭代器而不是列表 (以节省内存使用);
...
...
@@ -43,7 +43,7 @@ NLTK 自带大量文档。作为本书的补充,`http://nltk.org/`网站提供
这些变化的更多细节请参见
`https://docs.python.org/dev/whatsnew/3.0.html`
.。有一个
`2to3.py`
工具可以将 Python 2 代码转换为 Python 3;关详细信息请参阅
`https://docs.python.org/2/library/2to3.html`
。
NLTK 同样很多地方都有更改
︰
NLTK 同样很多地方都有更改
:
*
许多类型使用
`fromstring()`
方法从字符串初始化
*
许多函数现在返回迭代器而不是列表
...
...
@@ -63,7 +63,7 @@ NLTK 同样很多地方都有更改︰
| NLTK-Data: | 包含本书中分析和处理的语言语料库。 |
| NumPy: | (推荐)这是一个科学计算库,支持多维数组和线性代数,在某些计算概率、标记、聚类和分类任务中用到。 |
| Matplotlib: | (推荐)这是一个用于数据可视化的 2D 绘图库,本书在产生线图和条形图的程序例子中用到。 |
| 斯坦福大学 NLP 工具
︰
| (推荐)NLTK 包括斯坦福大学 NLP 工具的接口,可用于大型语言处理(见
`http://nlp.stanford.edu/software/`
)。 |
| 斯坦福大学 NLP 工具
:
| (推荐)NLTK 包括斯坦福大学 NLP 工具的接口,可用于大型语言处理(见
`http://nlp.stanford.edu/software/`
)。 |
| NetworkX: | (可选)这是一个用于存储和操作由节点和边组成的网络结构的函数库。可视化语义网络还需要安装
*Graphviz*
库。 |
| Prover9: | (可选)这是一个使用一阶等式逻辑定理的自动证明器,用于支持语言处理中的推理。 |
...
...
@@ -92,11 +92,11 @@ NLTK 创建于 2001 年,最初是宾州大学计算机与信息科学系计算
NLTK 设计中的四个主要目标:
| 简单
︰
| 提供一个直观的框架和大量构建模块,使用户获取 NLP 知识而不必陷入像标注语言数据那样繁琐的事务中 |
| 简单
:
| 提供一个直观的框架和大量构建模块,使用户获取 NLP 知识而不必陷入像标注语言数据那样繁琐的事务中 |
| --- | --- |
| 一致
︰
| 提供一个具有一致的接口和数据结构的,并且方法名称容易被猜到的统一的框架 |
| 可扩展
︰
| 提供一种结构,新的软件模块包括同一个任务中的不同的实现和相互冲突的方法都可以方便添加进来 |
| 模块化
︰
| 提供的组件可以独立使用而无需理解工具包的其他部分 |
| 一致
:
| 提供一个具有一致的接口和数据结构的,并且方法名称容易被猜到的统一的框架 |
| 可扩展
:
| 提供一种结构,新的软件模块包括同一个任务中的不同的实现和相互冲突的方法都可以方便添加进来 |
| 模块化
:
| 提供的组件可以独立使用而无需理解工具包的其他部分 |
对比上述目标,我们有意回避了工具包三个非需求行的但可能有用的特征。首先,虽然工具包提供了广泛的工具,但它不是面面俱全的;它是一个工具包而不是一个系统,它将会随着 NLP 领域一起演化。第二,虽然这个工具包的效率足以支持实际的任务,但它运行时的性能还没有高度优化;这种优化往往涉及更复杂的算法或使用 C 或 C++ 等较低一级的编程语言来实现。这将影响工具包的可读性且更难以安装。第三,我们试图避开巧妙的编程技巧,因为我们相信清楚直白的实现比巧妙却可读性差的方法好。
...
...
1.md
浏览文件 @
9f8856a7
...
...
@@ -26,7 +26,7 @@ Type "help", "copyright", "credits" or "license" for more information.
注
如果你无法运行 Python 解释器可能是因为没有正确安装 Python。请访问
`http://python.org/`
查阅详细操作说明。NLTK 3.0 在 Python 2.6 和 2.7 上同样可以工作。如果你使用的是这些较旧的版本,注意
`/`
运算符会向下舍入小数(所以
`1/3`
会得到
`0`
)。为了得到预期的除法行为,你需要输入
︰
`from __future__ import division`
如果你无法运行 Python 解释器可能是因为没有正确安装 Python。请访问
`http://python.org/`
查阅详细操作说明。NLTK 3.0 在 Python 2.6 和 2.7 上同样可以工作。如果你使用的是这些较旧的版本,注意
`/`
运算符会向下舍入小数(所以
`1/3`
会得到
`0`
)。为了得到预期的除法行为,你需要输入
:
`from __future__ import division`
`>>>`
提示符表示 Python 解释器正在等待输入。复制这本书的例子时,自己不要键入"
`>>>`
"。现在,让我们开始把 Python 当作计算器使用:
...
...
@@ -832,7 +832,7 @@ word length is less than 5
注意
如果你正在使用 Python 2.6 或 2.7,为了识别上面的
`print`
函数,需要包括以下行
︰
如果你正在使用 Python 2.6 或 2.7,为了识别上面的
`print`
函数,需要包括以下行
:
```
py
>>>
from
__future__
import
print_function
...
...
2.md
浏览文件 @
9f8856a7
...
...
@@ -499,7 +499,7 @@ German_Deutsch 0 171 263 614 717 894 1013 1110 1213 1275
## 2.4 使用双连词生成随机文本
我们可以使用条件频率分布创建一个双连词表(词对)。(我们在 3 中介绍过。)
`bigrams()`
函数接受一个单词列表,并建立一个连续的词对列表。记住,为了能看到结果而不是神秘的"生成器对象",我们需要使用
`list()`
函数
︰
我们可以使用条件频率分布创建一个双连词表(词对)。(我们在 3 中介绍过。)
`bigrams()`
函数接受一个单词列表,并建立一个连续的词对列表。记住,为了能看到结果而不是神秘的"生成器对象",我们需要使用
`list()`
函数
:
```
py
>>>
sent
=
[
'In'
,
'the'
,
'beginning'
,
'God'
,
'created'
,
'the'
,
'heaven'
,
...
...
3.md
浏览文件 @
9f8856a7
此差异已折叠。
点击以展开。
4.md
浏览文件 @
9f8856a7
...
...
@@ -918,7 +918,7 @@ Python 提供一些具有函数式编程语言如 Haskell 标准特征的高阶
小心!
如果你的程序将使用大量的文件,它是一个好主意来关闭任何一旦不再需要的已经打开的文件。如果你使用
`with`
语句,Python 会自动关闭打开的文件
︰
如果你的程序将使用大量的文件,它是一个好主意来关闭任何一旦不再需要的已经打开的文件。如果你使用
`with`
语句,Python 会自动关闭打开的文件
:
```
py
>>>
with
open
(
"lexicon.txt"
)
as
f
:
...
...
5.md
浏览文件 @
9f8856a7
...
...
@@ -803,7 +803,7 @@ Python 字典方法:常用的方法与字典相关习惯用法的总结。
0.20326391789486245
```
最终的正则表达式
«`
.
*
`»
是一个全面捕捉的,标注所有词为名词。这与默认标注器是等效的(只是效率低得多)。除了作为正则表达式标注器的一部分重新指定这个,有没有办法结合这个标注器和默认标注器呢?我们将很快看到如何做到这一点。
最终的正则表达式
`
.
*
`
是一个全面捕捉的,标注所有词为名词。这与默认标注器是等效的(只是效率低得多)。除了作为正则表达式标注器的一部分重新指定这个,有没有办法结合这个标注器和默认标注器呢?我们将很快看到如何做到这一点。
注意
...
...
9.md
浏览文件 @
9f8856a7
...
...
@@ -159,7 +159,7 @@ V[TENSE=pres, -AUX] -> 'likes'
在传递中,我们应该指出有显示 AVM 的替代方法;1.3 显示了一个例子。虽然特征结构呈现的
[
(16)
](
./ch09.html#ex-agr0
)
中的风格不太悦目,我们将坚持用这种格式,因为它对应我们将会从 NLTK 得到的输出。
关于表示,我们也注意到特征结构,像字典,对特征的
*顺序*
没有指定特别的意义。所以
[
(16)
](
./ch09.html#ex-agr0
)
等同于
︰
关于表示,我们也注意到特征结构,像字典,对特征的
*顺序*
没有指定特别的意义。所以
[
(16)
](
./ch09.html#ex-agr0
)
等同于
:
```
py
[
AGR
=
[
NUM
=
pl
]]
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录