一种二元谓词具有类型〈e, 〈e, t〉〉。虽然这是先组合类型 e 的一个参数成一个一元谓词的类型,我们可以用二元谓词的两个参数直接组合来表示二元谓词。例如,在<cite>Angus sees Cyril</cite>的翻译中谓词 see 会与它的参数结合得到结果 see(angus, cyril)。
@@ -150,7 +150,7 @@ Kappa 系数 K 测量两个人判断类别和修正预期的期望一致性的
最简单的方法是获得出版的网页文本的文集。Web 语料库 ACL 特别兴趣组(SIGWAC)在`http://www.sigwac.org.uk/`维护一个资源列表。使用定义好的 Web 语料库的优点是它们有文档、稳定并允许重复性实验。
如果所需的内容在一个特定的网站,有许多实用程序能捕获网站的所有可访问内容,如 _GNU Wget_ `http://www.gnu.org/software/wget/`。For maximal flexibility and control, a web crawler can be used, such as _Heritrix_`http://crawler.archive.org/`. 为了最大的灵活性和可控制,可以使用网络爬虫如[(Croft, Metzler, & Strohman, 2009)](./bibliography.html#croft2009)。例如:如果我们要编译双语文本集合,对应两种语言的文档对,爬虫需要检测站点的结构以提取文件之间的对应关系,它需要按照捕获的对应方式组织下载的页面。写你自己的网页爬虫可能使很有诱惑力的,但也有很多陷阱需要克服,如检测 MIME 类型、转换相对地址为绝对 URL、避免被困在循环链接结构、处理网络延迟、避免使站点超载或被禁止访问该网站等。
如果所需的内容在一个特定的网站,有许多实用程序能捕获网站的所有可访问内容,如 _GNU Wget_ `http://www.gnu.org/software/wget/`。For maximal flexibility and control, a web crawler can be used, such as *Heritrix*`http://crawler.archive.org/`. 为了最大的灵活性和可控制,可以使用网络爬虫如[(Croft, Metzler, & Strohman, 2009)](./bibliography.html#croft2009)。例如:如果我们要编译双语文本集合,对应两种语言的文档对,爬虫需要检测站点的结构以提取文件之间的对应关系,它需要按照捕获的对应方式组织下载的页面。写你自己的网页爬虫可能使很有诱惑力的,但也有很多陷阱需要克服,如检测 MIME 类型、转换相对地址为绝对 URL、避免被困在循环链接结构、处理网络延迟、避免使站点超载或被禁止访问该网站等。
7. ☼ 根据 Strunk 和 White 的《Elements of Style》,词 however 在句子开头使用是“in whatever way”或“to whatever extent”的意思,而没有“nevertheless”的意思。他们给出了正确用法的例子:However you advise him, he will probably do as he thinks best.(`http://www.bartleby.com/141/strunk3.html`) 使用词汇索引工具在我们一直在思考的各种文本中研究这个词的实际用法。也可以看 _LanguageLog_ 发布在`http://itre.cis.upenn.edu/~myl/languagelog/archives/001913.html`上的“Fossilized prejudices abou‘t however’”。
7. ☼ 根据 Strunk 和 White 的《Elements of Style》,词 however 在句子开头使用是“in whatever way”或“to whatever extent”的意思,而没有“nevertheless”的意思。他们给出了正确用法的例子:However you advise him, he will probably do as he thinks best.(`http://www.bartleby.com/141/strunk3.html`) 使用词汇索引工具在我们一直在思考的各种文本中研究这个词的实际用法。也可以看 *LanguageLog* 发布在`http://itre.cis.upenn.edu/~myl/languagelog/archives/001913.html`上的“Fossilized prejudices abou‘t however’”。
考查 s 行和 t 行,我们看到它们是部分的“互补分布”,这个证据表明它们不是这种语言中的独特音素。从而我们可以令人信服的从罗托卡特语字母表中去除 s,简单加入一个发音规则:当字母 t 跟在 i 后面时发 s 的音。(注意单独的条目 _su_ 即 _kasuari_,‘cassowary’是从英语中借来的)。
考查 s 行和 t 行,我们看到它们是部分的“互补分布”,这个证据表明它们不是这种语言中的独特音素。从而我们可以令人信服的从罗托卡特语字母表中去除 s,简单加入一个发音规则:当字母 t 跟在 i 后面时发 s 的音。(注意单独的条目 *su* 即 *kasuari*,‘cassowary’是从英语中借来的)。
如果我们想要检查表格中数字背后的词汇,有一个索引允许我们迅速找到包含一个给定的辅音-元音对的单词的列表将会有帮助,例如,`cv_index['su']`应该给我们所有含有 su 的词汇。下面是我们如何能做到这一点:
...
...
@@ -983,7 +983,7 @@ la la; lovely lol lol love; lol lol lol.; la la la; la la la
`>>> my_dictionary = defaultdict(`_function to create default value_`)``>>> for`_item_ `in` _sequence_`:``... my_dictionary[`_item_key_`]` _is updated with information about item_
`>>> my_dictionary = defaultdict(`_function to create default value_`)``>>> for`*item*`in`*sequence*`:``... my_dictionary[`_item_key_`]` _is updated with information about item_
下面是这种模式的另一个示例,我们按它们最后两个字母索引词汇:
...
...
@@ -926,7 +926,7 @@ def display():
在基于一元处理一个语言处理任务时,我们使用上下文中的一个项目。标注的时候,我们只考虑当前的词符,与更大的上下文隔离。给定一个模型,我们能做的最好的是为每个词标注其*先验的*最可能的标记。这意味着我们将使用相同的标记标注一个词,如 wind,不论它出现的上下文是 the wind 还是 to wind。
一旦文本中的命名实体已被识别,我们就可以提取它们之间存在的关系。如前所述,我们通常会寻找指定类型的命名实体之间的关系。进行这一任务的方法之一是首先寻找所有 _X_, α, _Y_)形式的三元组,其中 _X_ 和 _Y_ 是指定类型的命名实体,α表示 _X_ 和 _Y_ 之间关系的字符串。然后我们可以使用正则表达式从α的实体中抽出我们正在查找的关系。下面的例子搜索包含词 in 的字符串。特殊的正则表达式`(?!\b.+ing\b)`是一个否定预测先行断言,允许我们忽略如 success in supervising the transition of 中的字符串,其中 in 后面跟一个动名词。
一旦文本中的命名实体已被识别,我们就可以提取它们之间存在的关系。如前所述,我们通常会寻找指定类型的命名实体之间的关系。进行这一任务的方法之一是首先寻找所有 *X*, α, *Y*)形式的三元组,其中 *X* 和 *Y* 是指定类型的命名实体,α表示 *X* 和 *Y* 之间关系的字符串。然后我们可以使用正则表达式从α的实体中抽出我们正在查找的关系。下面的例子搜索包含词 in 的字符串。特殊的正则表达式`(?!\b.+ing\b)`是一个否定预测先行断言,允许我们忽略如 success in supervising the transition of 中的字符串,其中 in 后面跟一个动名词。