Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
taosdata
TDengine
提交
ba344f7b
T
TDengine
项目概览
taosdata
/
TDengine
1 年多 前同步成功
通知
1185
Star
22016
Fork
4786
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
T
TDengine
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
ba344f7b
编写于
5月 04, 2023
作者:
S
shenglian zhou
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
feat: add python udf docs
上级
cef0aba5
变更
3
显示空白变更内容
内联
并排
Showing
3 changed file
with
146 addition
and
13 deletion
+146
-13
docs/zh/07-develop/09-udf.md
docs/zh/07-develop/09-udf.md
+122
-7
docs/zh/12-taos-sql/22-meta.md
docs/zh/12-taos-sql/22-meta.md
+4
-0
docs/zh/12-taos-sql/26-udf.md
docs/zh/12-taos-sql/26-udf.md
+20
-6
未找到文件。
docs/zh/07-develop/09-udf.md
浏览文件 @
ba344f7b
...
@@ -6,11 +6,13 @@ description: "支持用户编码的聚合函数和标量函数,在查询中嵌
...
@@ -6,11 +6,13 @@ description: "支持用户编码的聚合函数和标量函数,在查询中嵌
在有些应用场景中,应用逻辑需要的查询无法直接使用系统内置的函数来表示。利用 UDF(User Defined Function) 功能,TDengine 可以插入用户编写的处理代码并在查询中使用它们,就能够很方便地解决特殊应用场景中的使用需求。 UDF 通常以数据表中的一列数据做为输入,同时支持以嵌套子查询的结果作为输入。
在有些应用场景中,应用逻辑需要的查询无法直接使用系统内置的函数来表示。利用 UDF(User Defined Function) 功能,TDengine 可以插入用户编写的处理代码并在查询中使用它们,就能够很方便地解决特殊应用场景中的使用需求。 UDF 通常以数据表中的一列数据做为输入,同时支持以嵌套子查询的结果作为输入。
TDengine 支持通过 C/C++ 语言进行 UDF 定义。接下来结合示例讲解 UDF 的使用方法。
用户可以通过 UDF 实现两类函数:标量函数和聚合函数。标量函数对每行数据输出一个值,如求绝对值 abs,正弦函数 sin,字符串拼接函数 concat 等。聚合函数对多行数据进行输出一个值,如求平均数 avg,最大值 max 等。
用户可以通过 UDF 实现两类函数:标量函数和聚合函数。标量函数对每行数据输出一个值,如求绝对值 abs,正弦函数 sin,字符串拼接函数 concat 等。聚合函数对多行数据进行输出一个值,如求平均数 avg,最大值 max 等。
实现 UDF 时,需要实现规定的接口函数
TDengine 支持通过 C/Python 语言进行 UDF 定义。接下来结合示例讲解 UDF 的使用方法。
# C 语言实现UDF
使用 C 语言实现 UDF 时,需要实现规定的接口函数
-
标量函数需要实现标量接口函数 scalarfn 。
-
标量函数需要实现标量接口函数 scalarfn 。
-
聚合函数需要实现聚合接口函数 aggfn_start , aggfn , aggfn_finish。
-
聚合函数需要实现聚合接口函数 aggfn_start , aggfn , aggfn_finish。
-
如果需要初始化,实现 udf_init;如果需要清理工作,实现udf_destroy。
-
如果需要初始化,实现 udf_init;如果需要清理工作,实现udf_destroy。
...
@@ -213,9 +215,6 @@ gcc -g -O0 -fPIC -shared bit_and.c -o libbitand.so
...
@@ -213,9 +215,6 @@ gcc -g -O0 -fPIC -shared bit_and.c -o libbitand.so
这样就准备好了动态链接库 libbitand.so 文件,可以供后文创建 UDF 时使用了。为了保证可靠的系统运行,编译器 GCC 推荐使用 7.5 及以上版本。
这样就准备好了动态链接库 libbitand.so 文件,可以供后文创建 UDF 时使用了。为了保证可靠的系统运行,编译器 GCC 推荐使用 7.5 及以上版本。
## 管理和使用UDF
编译好的UDF,还需要将其加入到系统才能被正常的SQL调用。关于如何管理和使用UDF,参见
[
UDF使用说明
](
../12-taos-sql/26-udf.md
)
## 示例代码
## 示例代码
### 标量函数示例 [bit_and](https://github.com/taosdata/TDengine/blob/develop/tests/script/sh/bit_and.c)
### 标量函数示例 [bit_and](https://github.com/taosdata/TDengine/blob/develop/tests/script/sh/bit_and.c)
...
@@ -269,3 +268,119 @@ select max_vol(vol1,vol2,vol3,deviceid) from battery;
...
@@ -269,3 +268,119 @@ select max_vol(vol1,vol2,vol3,deviceid) from battery;
```
```
</details>
</details>
# Python 语言实现UDF
使用 Python 语言实现 UDF 时,需要实现规定的接口函数
-
标量函数需要实现标量接口函数 process 。
-
聚合函数需要实现聚合接口函数 start ,reduce ,finish。
-
如果需要初始化,实现 init;如果需要清理工作,实现 destroy。
## 实现标量函数
标量函数实现模版如下
```
Python
def init():
# initialization
def destroy():
# destroy
def process(input: datablock) -> tuple[output_type]:
# process input datablock,
# datablock.data(row, col) is to access the python object in location(row,col)
# return tuple object consisted of object of type outputtype
```
## 实现聚合函数
聚合函数实现模版如下
```
Python
def init():
#initialization
def destroy():
#destroy
def start() -> bytes:
#return serialize(init_state)
def reduce(inputs: datablock, buf: bytes) -> bytes
# deserialize buf to state
# reduce the inputs and state into new_state.
# use inputs.data(i,j) to access python ojbect of location(i,j)
# serialize new_state into new_state_bytes
return new_state_bytes
def finish(buf: bytes) -> output_type:
#return obj of type outputtype
```
## 接口函数定义
### 标量接口函数
```
Python
def process(input: datablock) -> tuple[output_type]:
```
-
input:datablock 类似二维矩阵,通过成员方法 data(row,col)返回位于 row 行,col 列的 python 对象
-
返回值是一个 Python 对象元组,每个元素类型为输出类型。
### 聚合接口函数
```
Python
def start() -> bytes:
def reduce(inputs: datablock, buf: bytes) -> bytes
def finish(buf: bytes) -> output_type:
```
首先调用 start 生成最初结果 buffer,然后输入数据会被分为多个行数据块,对每个数据块 inputs 和当前中间结果 buf 调用 reduce,得到新的中间结果,最后再调用 finish 从中间结果 buf 产生最终输出,最终输出只能含 0 或 1 条数据。
### UDF 初始化和销毁
```
Python
def init()
def destroy()
```
其中 init 完成初始化工作。 destroy 完成清理工作。如果没有初始化工作,无需定义 init 函数。如果没有清理工作,无需定义 destroy 函数。
## Python数据类型和TDengine数据类型映射
|
**TDengine SQL数据类型**
|
**Python数据类型**
|
| :-----------------------: | ------------ |
|TINYINT / SMALLINT / INT / BIGINT | int |
|TINYINT UNSIGNED / SMALLINT UNSIGNED / INT UNSIGNED / BIGINT UNSIGNED | int |
|FLOAT / DOUBLE | float |
|BOOL | bool |
|BINARY / VARCHAR / NCHAR | bytes|
|TIMESTAMP | int |
|JSON and other types | 不支持 |
## Python UDF 环境的安装
1.
安装 taospyudf 包。此包执行Python UDF程序。
```
bash
pip
install
taospyudf
lddconfig
```
2.
如果 Python UDF 程序执行时,引用其它的包,PYTHONPATH 环境变量可以通过在 taos.cfg 的 UdfdLdLibPath 变量配置
## 示例代码
### 标量函数示例 [pybitand](https://github.com/taosdata/TDengine/blob/develop/tests/script/sh/pybitand.py)
bit_add 实现多列的按位与功能。如果只有一列,返回这一列。bit_add 忽略空值。
<details>
<summary>
pybitand.py
</summary>
```
Python
{{#include tests/script/sh/pybitand.py}}
```
</details>
### 聚合函数示例 [pyl2norm](https://github.com/taosdata/TDengine/blob/develop/tests/script/sh/pyl2norm.py)
pyl2norm 实现了输入列的所有数据的二阶范数,即对每个数据先平方,再累加求和,最后开方。
<details>
<summary>
pyl2norm.py
</summary>
```
c
{{
#
include
tests
/
script
/
sh
/
pyl2norm
.
py
}}
```
</details>
# 管理和使用UDF
编译好的UDF,还需要将其加入到系统才能被正常的SQL调用。关于如何管理和使用UDF,参见
[
UDF使用说明
](
../12-taos-sql/26-udf.md
)
\ No newline at end of file
docs/zh/12-taos-sql/22-meta.md
浏览文件 @
ba344f7b
...
@@ -120,6 +120,10 @@ TDengine 内置了一个名为 `INFORMATION_SCHEMA` 的数据库,提供对数
...
@@ -120,6 +120,10 @@ TDengine 内置了一个名为 `INFORMATION_SCHEMA` 的数据库,提供对数
| 5 | create_time | TIMESTAMP | 创建时间 |
| 5 | create_time | TIMESTAMP | 创建时间 |
| 6 | code_len | INT | 代码长度 |
| 6 | code_len | INT | 代码长度 |
| 7 | bufsize | INT | buffer 大小 |
| 7 | bufsize | INT | buffer 大小 |
| 8 | func_language | BINARY(31) | 自定义函数编程语言 |
| 9 | func_body | BINARY(16384) | 函数体定义 |
| 10 | func_version | INT | 函数版本号。初始版本为0,每次替换更新,版本号加1。|
## INS_INDEXES
## INS_INDEXES
...
...
docs/zh/12-taos-sql/26-udf.md
浏览文件 @
ba344f7b
...
@@ -11,29 +11,38 @@ description: 使用 UDF 的详细指南
...
@@ -11,29 +11,38 @@ description: 使用 UDF 的详细指南
在创建 UDF 时,需要区分标量函数和聚合函数。如果创建时声明了错误的函数类别,则可能导致通过 SQL 指令调用函数时出错。此外,用户需要保证输入数据类型与 UDF 程序匹配,UDF 输出数据类型与 OUTPUTTYPE 匹配。
在创建 UDF 时,需要区分标量函数和聚合函数。如果创建时声明了错误的函数类别,则可能导致通过 SQL 指令调用函数时出错。此外,用户需要保证输入数据类型与 UDF 程序匹配,UDF 输出数据类型与 OUTPUTTYPE 匹配。
使用 CREATE OR REPLACE FUNCTION,如果函数已经存在,会修改已有的函数属性。
-
创建标量函数
-
创建标量函数
```
sql
```
sql
CREATE
FUNCTION
function_name
AS
library_path
OUTPUTTYPE
output_type
;
CREATE
[
OR
REPLACE
]
FUNCTION
function_name
AS
library_path
OUTPUTTYPE
output_type
[
LANGUAGE
'C|Python'
]
;
```
```
-
function_name:标量函数未来在 SQL 中被调用时的函数名,必须与函数实现中 udf 的实际名称一致;
-
function_name:标量函数未来在 SQL 中被调用时的函数名,必须与函数实现中 udf 的实际名称一致;
-
library_path:包含 UDF 函数实现的动态链接库的库文件绝对路径(指的是库文件在当前客户端所在主机上的保存路径,通常是指向一个 .so 文件),这个路径需要用英文单引号或英文双引号括起来;
-
LANGUAGE 'C|Python':函数编程语言,目前支持C语言和Python语言。
-
library_path:如果编程语言是C,路径是包含 UDF 函数实现的动态链接库的库文件绝对路径(指的是库文件在当前客户端所在主机上的保存路径,通常是指向一个 .so 文件)。如果编程语言是Python,路径是包含 UDF 函数实现的Python文件路径。这个路径需要用英文单引号或英文双引号括起来;
-
output_type:此函数计算结果的数据类型名称;
-
output_type:此函数计算结果的数据类型名称;
例如,如下语句可以把 libbitand.so 创建为系统中可用的 UDF:
例如,如下语句可以把 libbitand.so 创建为系统中可用的 UDF:
```
sql
```
sql
CREATE
FUNCTION
bit_and
AS
"/home/taos/udf_example/libbitand.so"
OUTPUTTYPE
INT
;
CREATE
FUNCTION
bit_and
AS
"/home/taos/udf_example/libbitand.so"
OUTPUTTYPE
INT
;
```
```
例如,使用以下语句可以修改已经定义的 bit_and 函数,输出类型是 BIGINT,使用Python语言实现。
```
sql
CREATE
OR
REPLACE
FUNCTION
bit_and
AS
"/home/taos/udf_example/bit_and.py"
OUTPUTTYPE
BIGINT
LANGUAGE
'Python'
;
```
-
创建聚合函数:
-
创建聚合函数:
```
sql
```
sql
CREATE
AGGREGATE
FUNCTION
function_name
AS
library_path
OUTPUTTYPE
output_type
[
BUFSIZE
buffer_size
];
CREATE
[
OR
REPLACE
]
AGGREGATE
FUNCTION
function_name
AS
library_path
OUTPUTTYPE
output_type
[
BUFSIZE
buffer_size
]
[
LANGUAGE
'C|Python'
];
```
```
-
function_name:聚合函数未来在 SQL 中被调用时的函数名,必须与函数实现中 udfNormalFunc 的实际名称一致;
-
function_name:聚合函数未来在 SQL 中被调用时的函数名,必须与函数实现中 udfNormalFunc 的实际名称一致;
-
library_path:包含 UDF 函数实现的动态链接库的库文件绝对路径(指的是库文件在当前客户端所在主机上的保存路径,通常是指向一个 .so 文件),这个路径需要用英文单引号或英文双引号括起来;
-
LANGUAGE 'C|Python':函数编程语言,目前支持C语言和Python语言。
-
output_type:此函数计算结果的数据类型,与上文中 udfNormalFunc 的 itype 参数不同,这里不是使用数字表示法,而是直接写类型名称即可;
-
library_path:如果编程语言是C,路径是包含 UDF 函数实现的动态链接库的库文件绝对路径(指的是库文件在当前客户端所在主机上的保存路径,通常是指向一个 .so 文件)。如果编程语言是Python,路径是包含 UDF 函数实现的Python文件路径。这个路径需要用英文单引号或英文双引号括起来;;
-
output_type:此函数计算结果的数据类型名称;
-
buffer_size:中间计算结果的缓冲区大小,单位是字节。如果不使用可以不设置。
-
buffer_size:中间计算结果的缓冲区大小,单位是字节。如果不使用可以不设置。
例如,如下语句可以把 libl2norm.so 创建为系统中可用的 UDF:
例如,如下语句可以把 libl2norm.so 创建为系统中可用的 UDF:
...
@@ -41,6 +50,11 @@ CREATE AGGREGATE FUNCTION function_name AS library_path OUTPUTTYPE output_type [
...
@@ -41,6 +50,11 @@ CREATE AGGREGATE FUNCTION function_name AS library_path OUTPUTTYPE output_type [
```
sql
```
sql
CREATE
AGGREGATE
FUNCTION
l2norm
AS
"/home/taos/udf_example/libl2norm.so"
OUTPUTTYPE
DOUBLE
bufsize
8
;
CREATE
AGGREGATE
FUNCTION
l2norm
AS
"/home/taos/udf_example/libl2norm.so"
OUTPUTTYPE
DOUBLE
bufsize
8
;
```
```
例如,使用以下语句可以修改已经定义的 l2norm 函数的缓冲区大小为64。
```
sql
CREATE
AGGREGATE
FUNCTION
l2norm
AS
"/home/taos/udf_example/libl2norm.so"
OUTPUTTYPE
DOUBLE
bufsize
64
;
```
关于如何开发自定义函数,请参考
[
UDF使用说明
](
/develop/udf
)
。
关于如何开发自定义函数,请参考
[
UDF使用说明
](
/develop/udf
)
。
## 管理 UDF
## 管理 UDF
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录