Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
2dot5
ClickHouse
提交
1ba85e2d
C
ClickHouse
项目概览
2dot5
/
ClickHouse
通知
3
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
C
ClickHouse
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
1ba85e2d
编写于
6月 06, 2019
作者:
Z
zhang2014
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
some review fixes
上级
9b01517e
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
8 addition
and
8 deletion
+8
-8
docs/zh/query_language/functions/string_functions.md
docs/zh/query_language/functions/string_functions.md
+6
-6
docs/zh/query_language/functions/string_search_functions.md
docs/zh/query_language/functions/string_search_functions.md
+2
-2
未找到文件。
docs/zh/query_language/functions/string_functions.md
浏览文件 @
1ba85e2d
...
...
@@ -21,17 +21,17 @@
## lengthUTF8
假定字符串以UTF-8编码组成的文本,返回此字符串的Unicode
code point
长度。如果传入的字符串不是UTF-8编码,则函数可能返回一个预期外的值(不会抛出异常)。
假定字符串以UTF-8编码组成的文本,返回此字符串的Unicode
字符
长度。如果传入的字符串不是UTF-8编码,则函数可能返回一个预期外的值(不会抛出异常)。
结果类型是UInt64。
## char_length, CHAR_LENGTH
假定字符串以UTF-8编码组成的文本,返回此字符串的Unicode
code point
长度。如果传入的字符串不是UTF-8编码,则函数可能返回一个预期外的值(不会抛出异常)。
假定字符串以UTF-8编码组成的文本,返回此字符串的Unicode
字符
长度。如果传入的字符串不是UTF-8编码,则函数可能返回一个预期外的值(不会抛出异常)。
结果类型是UInt64。
## character_length, CHARACTER_LENGTH
假定字符串以UTF-8编码组成的文本,返回此字符串的Unicode
code point
长度。如果传入的字符串不是UTF-8编码,则函数可能返回一个预期外的值(不会抛出异常)。
假定字符串以UTF-8编码组成的文本,返回此字符串的Unicode
字符
长度。如果传入的字符串不是UTF-8编码,则函数可能返回一个预期外的值(不会抛出异常)。
结果类型是UInt64。
## lower, lcase
...
...
@@ -91,11 +91,11 @@ SELECT toValidUTF8('\x61\xF0\x80\x80\x80b')
## reverseUTF8
以
code point
为单位反转UTF-8编码的字符串。如果字符串不是UTF-8编码,则可能获取到一个非预期的结果(不会抛出异常)。
以
Unicode字符
为单位反转UTF-8编码的字符串。如果字符串不是UTF-8编码,则可能获取到一个非预期的结果(不会抛出异常)。
## format(pattern, s0, s1, ...)
使用常量字符串
`pattern`
格式
话
其他参数。
`pattern`
字符串中包含由大括号
`{}`
包围的“替换字段”。 未被包含在大括号中的任何内容都被视为文本内容,它将原样保留在返回值中。 如果你需要在文本内容中包含一个大括号字符,它可以通过加倍来转义:
`{{`
和
`}}`
。 字段名称可以是数字(从零开始)或空(然后将它们视为连续数字)
使用常量字符串
`pattern`
格式
化
其他参数。
`pattern`
字符串中包含由大括号
`{}`
包围的“替换字段”。 未被包含在大括号中的任何内容都被视为文本内容,它将原样保留在返回值中。 如果你需要在文本内容中包含一个大括号字符,它可以通过加倍来转义:
`{{`
和
`}}`
。 字段名称可以是数字(从零开始)或空(然后将它们视为连续数字)
```
sql
SELECT
format
(
'{1} {0} {1}'
,
'World'
,
'Hello'
)
...
...
@@ -125,7 +125,7 @@ SELECT format('{} {}', 'Hello', 'World')
## substringUTF8(s, offset, length)
与‘substring’相同,但其操作单位为
code point
,函数假设字符串是以UTF-8进行编码的文本。如果不是则可能返回一个预期外的结果(不会抛出异常)。
与‘substring’相同,但其操作单位为
Unicode字符
,函数假设字符串是以UTF-8进行编码的文本。如果不是则可能返回一个预期外的结果(不会抛出异常)。
## appendTrailingCharIfAbsent(s, c)
...
...
docs/zh/query_language/functions/string_search_functions.md
浏览文件 @
1ba85e2d
...
...
@@ -11,7 +11,7 @@
## positionUTF8(haystack, needle)
与
`position`
相同,但位置以Unicode
code points
返回。此函数工作在UTF-8编码的文本字符集中。如非此编码的字符集,则返回一些非预期结果(他不会抛出异常)。
与
`position`
相同,但位置以Unicode
字符
返回。此函数工作在UTF-8编码的文本字符集中。如非此编码的字符集,则返回一些非预期结果(他不会抛出异常)。
对于不区分大小写的搜索,请使用函数
`positionCaseInsensitiveUTF8`
。
...
...
@@ -112,7 +112,7 @@
对于不区分大小写的搜索或/和UTF-8格式,使用函数`
ngramSearchCaseInsensitive,ngramSearchUTF8,ngramSearchCaseInsensitiveUTF8
`。
**注意:对于UTF-8,我们使用3-gram。所有这些都不是完全公平的n-gram距离。我们使用2字节哈希来散列n-gram,然后计算这些哈希表之间的(非)对称差异 - 可能会发生冲突。对于UTF-8不区分大小写的格式,我们不使用公平的`
tolower
`
函数 - 我们将每个
code point
字节的第5位(从零开始)和字节的第一位归零 - 这适用于拉丁语,主要用于所有西里尔字母。
**
**注意:对于UTF-8,我们使用3-gram。所有这些都不是完全公平的n-gram距离。我们使用2字节哈希来散列n-gram,然后计算这些哈希表之间的(非)对称差异 - 可能会发生冲突。对于UTF-8不区分大小写的格式,我们不使用公平的`
tolower
`
函数 - 我们将每个
Unicode字符
字节的第5位(从零开始)和字节的第一位归零 - 这适用于拉丁语,主要用于所有西里尔字母。
**
[
来源文章
](
https://clickhouse.yandex/docs/en/query_language/functions/string_search_functions/
)
<!--hide-->
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录