Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
airflow-doc-zh
提交
e0146bfd
A
airflow-doc-zh
项目概览
OpenDocCN
/
airflow-doc-zh
9 个月 前同步成功
通知
3
Star
208
Fork
63
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
airflow-doc-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
e0146bfd
编写于
3月 23, 2019
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2019-03-23 20:40:55
上级
d3110a26
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
558 addition
and
558 deletion
+558
-558
zh/28.md
zh/28.md
+558
-558
未找到文件。
zh/28.md
浏览文件 @
e0146bfd
...
...
@@ -97,10 +97,10 @@ class airflow.contrib.sensors.wasb_sensor.WasbBlobSensor(container_name, blob_na
参数:
*
**container_name**
( str )
- 容器的名称。
*
**blob_name**
( str )
- blob的名称。
*
**wasb_conn_id**
( str )
- 对wasb连接的引用。
*
**check_options**
( dict )
-
`WasbHook.check_for_blob()`
采用的可选关键字参数。
*
`container_name( str )`
- 容器的名称。
*
`blob_name( str )`
- blob的名称。
*
`wasb_conn_id( str )`
- 对wasb连接的引用。
*
`check_options( dict )`
-
`WasbHook.check_for_blob()`
采用的可选关键字参数。
```
py
...
...
@@ -121,10 +121,10 @@ class airflow.contrib.sensors.wasb_sensor.WasbPrefixSensor(container_name, prefi
参数:
*
**container_name**
( str )
- 容器的名称。
*
**prefix**
( str )
- blob的前缀。
*
**wasb_conn_id**
( str )
- 对wasb连接的引用。
*
**check_options**
( dict )
-
`WasbHook.check_for_prefix()`
采用的可选关键字参数。
*
`container_name( str )`
- 容器的名称。
*
`prefix( str )`
- blob的前缀。
*
`wasb_conn_id( str )`
- 对wasb连接的引用。
*
`check_options( dict )`
-
`WasbHook.check_for_prefix()`
采用的可选关键字参数。
```
py
...
...
@@ -145,11 +145,11 @@ class airflow.contrib.operators.file_to_wasb.FileToWasbOperator(file_path, conta
参数:
*
**file_path**
( str )
- 要加载的文件的路径。 (模板)
*
**container_name**
( str )
- 容器的名称。 (模板)
*
**blob_name**
( str )
- blob的名称。 (模板)
*
**wasb_conn_id**
( str )
- 对wasb连接的引用。
*
**load_options**
( dict )
-
`WasbHook.load_file()`
采用的可选关键字参数。
*
`file_path( str )`
- 要加载的文件的路径。 (模板)
*
`container_name( str )`
- 容器的名称。 (模板)
*
`blob_name( str )`
- blob的名称。 (模板)
*
`wasb_conn_id( str )`
- 对wasb连接的引用。
*
`load_options( dict )`
-
`WasbHook.load_file()`
采用的可选关键字参数。
```
py
...
...
@@ -170,7 +170,7 @@ class airflow.contrib.hooks.wasb_hook.WasbHook(wasb_conn_id='wasb_default')
在连接的“额外”字段中传递的其他选项将传递给
`BlockBlockService()`
构造函数。 例如,通过添加{“sas_token”:“YOUR_TOKEN”}使用SAS令牌进行身份验证。
参数:
**wasb_conn_id**
( str )
- 对wasb连接的引用。
参数:
`wasb_conn_id( str )`
- 对wasb连接的引用。
```
py
...
...
@@ -181,9 +181,9 @@ check_for_blob(container_name, blob_name, **kwargs)
参数:
*
**container_name**
( str )
- 容器的名称。
*
**blob_name**
( str )
- blob的名称。
*
**kwargs**
( object )
-
`BlockBlobService.exists()`
采用的可选关键字参数。
*
`container_name( str )`
- 容器的名称。
*
`blob_name( str )`
- blob的名称。
*
`kwargs( object )`
-
`BlockBlobService.exists()`
采用的可选关键字参数。
返回:如果blob存在则为True,否则为False。
...
...
@@ -197,9 +197,9 @@ check_for_prefix(container_name, prefix, **kwargs)
参数:
*
**container_name**
( str )
- 容器的名称。
*
**prefix**
( str )
- blob的前缀。
*
**kwargs**
( object )
-
`BlockBlobService.list_blobs()`
采用的可选关键字参数。
*
`container_name( str )`
- 容器的名称。
*
`prefix( str )`
- blob的前缀。
*
`kwargs( object )`
-
`BlockBlobService.list_blobs()`
采用的可选关键字参数。
返回:如果存在与前缀匹配的blob,则为True,否则为False。
...
...
@@ -219,10 +219,10 @@ get_file(file_path, container_name, blob_name, **kwargs)
参数:
*
**file_path**
( str )
- 要下载的文件的路径。
*
**container_name**
( str )
- 容器的名称。
*
**blob_name**
( str )
- blob的名称。
*
**kwargs**
( object )
-
`BlockBlobService.create_blob_from_path()`
采用的可选关键字参数。
*
`file_path( str )`
- 要下载的文件的路径。
*
`container_name( str )`
- 容器的名称。
*
`blob_name( str )`
- blob的名称。
*
`kwargs( object )`
-
`BlockBlobService.create_blob_from_path()`
采用的可选关键字参数。
```
py
...
...
@@ -233,10 +233,10 @@ load_file(file_path, container_name, blob_name, **kwargs)
参数:
*
**file_path**
( str )
- 要加载的文件的路径。
*
**container_name**
( str )
- 容器的名称。
*
**blob_name**
( str )
- blob的名称。
*
**kwargs**
( object )
-
`BlockBlobService.create_blob_from_path()`
采用的可选关键字参数。
*
`file_path( str )`
- 要加载的文件的路径。
*
`container_name( str )`
- 容器的名称。
*
`blob_name( str )`
- blob的名称。
*
`kwargs( object )`
-
`BlockBlobService.create_blob_from_path()`
采用的可选关键字参数。
```
py
...
...
@@ -247,10 +247,10 @@ load_string(string_data, container_name, blob_name, **kwargs)
参数:
*
**string_data**
( str )
- 要加载的字符串。
*
**container_name**
( str )
- 容器的名称。
*
**blob_name**
( str )
- blob的名称。
*
**kwargs**
( object )
-
`BlockBlobService.create_blob_from_text()`
采用的可选关键字参数。
*
`string_data( str )`
- 要加载的字符串。
*
`container_name( str )`
- 容器的名称。
*
`blob_name( str )`
- blob的名称。
*
`kwargs( object )`
-
`BlockBlobService.create_blob_from_text()`
采用的可选关键字参数。
```
py
...
...
@@ -261,9 +261,9 @@ read_file(container_name, blob_name, **kwargs)
参数:
*
**container_name**
( str )
- 容器的名称。
*
**blob_name**
( str )
- blob的名称。
*
**kwargs**
( object )
-
`BlockBlobService.create_blob_from_path()`
采用的可选关键字参数。
*
`container_name( str )`
- 容器的名称。
*
`blob_name( str )`
- blob的名称。
*
`kwargs( object )`
-
`BlockBlobService.create_blob_from_path()`
采用的可选关键字参数。
### Azure文件共享
...
...
@@ -282,7 +282,7 @@ class airflow.contrib.hooks.azure_fileshare_hook.AzureFileShareHook(wasb_conn_id
在连接的“额外”字段中传递的其他选项将传递给
`FileService()`
构造函数。
参数:
**wasb_conn_id**
( str )
- 对wasb连接的引用。
参数:
`wasb_conn_id( str )`
- 对wasb连接的引用。
```
py
...
...
@@ -293,9 +293,9 @@ check_for_directory(share_name, directory_name, **kwargs)
参数:
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**kwargs**
( object )
-
`FileService.exists()`
采用的可选关键字参数。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`kwargs( object )`
-
`FileService.exists()`
采用的可选关键字参数。
返回:如果文件存在则为True,否则为False。
...
...
@@ -309,10 +309,10 @@ check_for_file(share_name, directory_name, file_name, **kwargs)
参数:
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**file_name**
( str )
- 文件名。
*
**kwargs**
( object )
-
`FileService.exists()`
采用的可选关键字参数。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`file_name( str )`
- 文件名。
*
`kwargs( object )`
-
`FileService.exists()`
采用的可选关键字参数。
返回:如果文件存在则为True,否则为False。
...
...
@@ -326,9 +326,9 @@ create_directory(share_name, directory_name, **kwargs)
参数:
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**kwargs**
( object )
-
`FileService.create_directory()`
采用的可选关键字参数。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`kwargs( object )`
-
`FileService.create_directory()`
采用的可选关键字参数。
返回:文件和目录列表
...
...
@@ -348,11 +348,11 @@ get_file(file_path, share_name, directory_name, file_name, **kwargs)
参数:
*
**file_path**
( str )
- 存储文件的位置。
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**file_name**
( str )
- 文件名。
*
**kwargs**
( object )
-
`FileService.get_file_to_path()`
采用的可选关键字参数。
*
`file_path( str )`
- 存储文件的位置。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`file_name( str )`
- 文件名。
*
`kwargs( object )`
-
`FileService.get_file_to_path()`
采用的可选关键字参数。
```
py
...
...
@@ -363,11 +363,11 @@ get_file_to_stream(stream, share_name, directory_name, file_name, **kwargs)
参数:
*
**stream**
(类文件对象 )
- 用于存储文件的文件句柄。
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**file_name**
( str )
- 文件名。
*
**kwargs**
( object )
-
`FileService.get_file_to_stream()`
采用的可选关键字参数。
*
`stream(类文件对象 )`
- 用于存储文件的文件句柄。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`file_name( str )`
- 文件名。
*
`kwargs( object )`
-
`FileService.get_file_to_stream()`
采用的可选关键字参数。
```
py
...
...
@@ -378,9 +378,9 @@ list_directories_and_files(share_name, directory_name=None, **kwargs)
参数:
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**kwargs**
( object )
-
`FileService.list_directories_and_files()`
采用的可选关键字参数。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`kwargs( object )`
-
`FileService.list_directories_and_files()`
采用的可选关键字参数。
返回:文件和目录列表
...
...
@@ -394,11 +394,11 @@ load_file(file_path, share_name, directory_name, file_name, **kwargs)
参数:
*
**file_path**
( str )
- 要加载的文件的路径。
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**file_name**
( str )
- 文件名。
*
**kwargs**
( object )
-
`FileService.create_file_from_path()`
采用的可选关键字参数。
*
`file_path( str )`
- 要加载的文件的路径。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`file_name( str )`
- 文件名。
*
`kwargs( object )`
-
`FileService.create_file_from_path()`
采用的可选关键字参数。
```
py
...
...
@@ -409,12 +409,12 @@ load_stream(stream, share_name, directory_name, file_name, count, **kwargs)
参数:
*
**stream**
(类文件 )
- 打开的文件/流作为文件内容上传。
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**file_name**
( str )
- 文件名。
*
**count**
( int )
- 流的大小(以字节为单位)
*
**kwargs**
( object )
-
`FileService.create_file_from_stream()`
采用的可选关键字参数。
*
`stream(类文件 )`
- 打开的文件/流作为文件内容上传。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`file_name( str )`
- 文件名。
*
`count( int )`
- 流的大小(以字节为单位)
*
`kwargs( object )`
-
`FileService.create_file_from_stream()`
采用的可选关键字参数。
```
py
...
...
@@ -425,11 +425,11 @@ load_string(string_data, share_name, directory_name, file_name, **kwargs)
参数:
*
**string_data**
( str )
- 要加载的字符串。
*
**share_name**
( str )
- 共享的名称。
*
**directory_name**
( str )
- 目录的名称。
*
**file_name**
( str )
- 文件名。
*
**kwargs**
( object )
-
`FileService.create_file_from_text()`
采用的可选关键字参数。
*
`string_data( str )`
- 要加载的字符串。
*
`share_name( str )`
- 共享的名称。
*
`directory_name( str )`
- 目录的名称。
*
`file_name( str )`
- 文件名。
*
`kwargs( object )`
-
`FileService.create_file_from_text()`
采用的可选关键字参数。
### 记录
...
...
@@ -456,7 +456,7 @@ class airflow.contrib.hooks.azure_data_lake_hook.AzureDataLakeHook(azure_data_la
客户端ID和客户端密钥应该在用户和密码参数中。 租户和帐户名称应为{“租户”:“
<
TENANT
>
”,“account_name”:“ACCOUNT_NAME”}的额外字段。
参数:
**azure_data_lake_conn_id**
( str )
- 对Azure Data Lake连接的引用。
参数:
`azure_data_lake_conn_id( str )`
- 对Azure Data Lake连接的引用。
```
py
...
...
@@ -465,7 +465,7 @@ check_for_file(file_path)
检查Azure Data Lake上是否存在文件。
参数:
**file_path**
( str )
- 文件的路径和名称。
参数:
`file_path( str )`
- 文件的路径和名称。
返回:如果文件存在则为True,否则为False。
...
...
@@ -479,12 +479,12 @@ download_file(local_path, remote_path, nthreads=64, overwrite=True, buffersize=4
参数:
*
**local_path**
( str )
- 本地路径。 如果下载单个文件,将写入此特定文件,除非它是现有目录,在这种情况下,将在其中创建文件。 如果下载多个文件,这是要写入的根目录。 将根据需要创建目录。
*
**remote_path**
( str )
- 用于查找远程文件的远程路径/ globstring。 不支持使用
`**的`
递归glob模式。
*
**nthreads**
( int )
- 要使用的线程数。 如果为None,则使用核心数。
*
**overwrite**
( bool )
- 是否强制覆盖现有文件/目录。 如果False和远程路径是目录,则无论是否覆盖任何文件都将退出。 如果为True,则实际仅覆盖匹配的文件名。
*
**buffersize**
( int )
- int [2
**
22]内部缓冲区的字节数。 此块不能大于块,并且不能小于块。
*
**blocksize**
( int )
- int [2
**
22]块的字节数。 在每个块中,我们为每个API调用编写一个较小的块。 这个块不能大于块。
*
`local_path( str )`
- 本地路径。 如果下载单个文件,将写入此特定文件,除非它是现有目录,在这种情况下,将在其中创建文件。 如果下载多个文件,这是要写入的根目录。 将根据需要创建目录。
*
`remote_path( str )`
- 用于查找远程文件的远程路径/ globstring。 不支持使用
`**的`
递归glob模式。
*
`nthreads( int )`
- 要使用的线程数。 如果为None,则使用核心数。
*
`overwrite( bool )`
- 是否强制覆盖现有文件/目录。 如果False和远程路径是目录,则无论是否覆盖任何文件都将退出。 如果为True,则实际仅覆盖匹配的文件名。
*
`buffersize( int )`
- int [2
**
22]内部缓冲区的字节数。 此块不能大于块,并且不能小于块。
*
`blocksize( int )`
- int [2
**
22]块的字节数。 在每个块中,我们为每个API调用编写一个较小的块。 这个块不能大于块。
```
py
...
...
@@ -501,12 +501,12 @@ upload_file(local_path, remote_path, nthreads=64, overwrite=True, buffersize=419
参数:
*
**local_path**
( str )
- 本地路径。 可以是单个文件,目录(在这种情况下,递归上传)或glob模式。 不支持使用
`**的`
递归glob模式。
*
**remote_path**
( str )
- 要上传的远程路径; 如果有多个文件,这就是要写入的dircetory根目录。
*
**nthreads**
( int )
- 要使用的线程数。 如果为None,则使用核心数。
*
**overwrite**
( bool )
- 是否强制覆盖现有文件/目录。 如果False和远程路径是目录,则无论是否覆盖任何文件都将退出。 如果为True,则实际仅覆盖匹配的文件名。
*
**buffersize**
( int )
- int [2
**
22]内部缓冲区的字节数。 此块不能大于块,并且不能小于块。
*
**blocksize**
( int )
- int [2
**
22]块的字节数。 在每个块中,我们为每个API调用编写一个较小的块。 这个块不能大于块。
*
`local_path( str )`
- 本地路径。 可以是单个文件,目录(在这种情况下,递归上传)或glob模式。 不支持使用
`**的`
递归glob模式。
*
`remote_path( str )`
- 要上传的远程路径; 如果有多个文件,这就是要写入的dircetory根目录。
*
`nthreads( int )`
- 要使用的线程数。 如果为None,则使用核心数。
*
`overwrite( bool )`
- 是否强制覆盖现有文件/目录。 如果False和远程路径是目录,则无论是否覆盖任何文件都将退出。 如果为True,则实际仅覆盖匹配的文件名。
*
`buffersize( int )`
- int [2
**
22]内部缓冲区的字节数。 此块不能大于块,并且不能小于块。
*
`blocksize( int )`
- int [2
**
22]块的字节数。 在每个块中,我们为每个API调用编写一个较小的块。 这个块不能大于块。
## AWS:亚马逊网络服务
...
...
@@ -533,8 +533,8 @@ class airflow.contrib.operators.emr_add_steps_operator.EmrAddStepsOperator(job_f
参数:
*
**job_flow_id**
- 要添加步骤的JobFlow的ID。 (模板)
*
**aws_conn_id**
( str )
- 与使用的aws连接
*
**步骤**
( list )
- 要添加到作业流的boto3样式步骤。 (模板)
*
`aws_conn_id( str )`
- 与使用的aws连接
*
`步骤( list )`
- 要添加到作业流的boto3样式步骤。 (模板)
#### EmrCreateJobFlowOperator
...
...
@@ -549,8 +549,8 @@ class airflow.contrib.operators.emr_create_job_flow_operator.EmrCreateJobFlowOpe
参数:
*
**aws_conn_id**
( str )
- 与使用的aws连接
*
**emr_conn_id**
( str )
- 要使用的emr连接
*
`aws_conn_id( str )`
- 与使用的aws连接
*
`emr_conn_id( str )`
- 要使用的emr连接
*
**job_flow_overrides**
- 用于覆盖emr_connection extra的boto3样式参数。 (模板)
...
...
@@ -567,7 +567,7 @@ class airflow.contrib.operators.emr_terminate_job_flow_operator.EmrTerminateJobF
参数:
*
**job_flow_id**
- 要终止的JobFlow的id。 (模板)
*
**aws_conn_id**
( str )
- 与使用的aws连接
*
`aws_conn_id( str )`
- 与使用的aws连接
#### EmrHook
...
...
@@ -610,7 +610,7 @@ check_for_bucket(bucket_name)
检查bucket_name是否存在。
参数:
**bucket_name**
( str )
- 存储桶的名称
参数:
`bucket_name( str )`
- 存储桶的名称
```
py
...
...
@@ -621,8 +621,8 @@ check_for_key(key, bucket_name=None)
参数:
*
**key**
( str )
- 指向文件的S3键
*
**bucket_name**
( str )
- 存储文件的存储桶的名称
*
`key( str )`
- 指向文件的S3键
*
`bucket_name( str )`
- 存储文件的存储桶的名称
```
py
...
...
@@ -643,7 +643,7 @@ get_bucket(bucket_name)
返回boto3.S3.Bucket对象
参数:
**bucket_name**
( str )
- 存储桶的名称
参数:
`bucket_name( str )`
- 存储桶的名称
```
py
...
...
@@ -654,8 +654,8 @@ get_key(key, bucket_name=None)
参数:
*
**key**
( str )
- 密钥的路径
*
**bucket_name**
( str )
- 存储桶的名称
*
`key( str )`
- 密钥的路径
*
`bucket_name( str )`
- 存储桶的名称
```
py
...
...
@@ -666,8 +666,8 @@ get_wildcard_key(wildcard_key, bucket_name=None, delimiter='')
参数:
*
**wildcard_key**
( str )
- 密钥的路径
*
**bucket_name**
( str )
- 存储桶的名称
*
`wildcard_key( str )`
- 密钥的路径
*
`bucket_name( str )`
- 存储桶的名称
```
py
...
...
@@ -678,11 +678,11 @@ list_keys(bucket_name, prefix='', delimiter='', page_size=None, max_items=None)
参数:
*
**bucket_name**
( str )
- 存储桶的名称
*
**prefix**
( str )
- 一个密钥前缀
*
**delimiter**
( str )
- 分隔符标记键层次结构。
*
**page_size**
( int )
- 分页大小
*
**max_items**
( int )
- 要返回的最大项目数
*
`bucket_name( str )`
- 存储桶的名称
*
`prefix( str )`
- 一个密钥前缀
*
`delimiter( str )`
- 分隔符标记键层次结构。
*
`page_size( int )`
- 分页大小
*
`max_items( int )`
- 要返回的最大项目数
```
py
...
...
@@ -693,11 +693,11 @@ list_prefixes(bucket_name, prefix='', delimiter='', page_size=None, max_items=No
参数:
*
**bucket_name**
( str )
- 存储桶的名称
*
**prefix**
( str )
- 一个密钥前缀
*
**delimiter**
( str )
- 分隔符标记键层次结构。
*
**page_size**
( int )
- 分页大小
*
**max_items**
( int )
- 要返回的最大项目数
*
`bucket_name( str )`
- 存储桶的名称
*
`prefix( str )`
- 一个密钥前缀
*
`delimiter( str )`
- 分隔符标记键层次结构。
*
`page_size( int )`
- 分页大小
*
`max_items( int )`
- 要返回的最大项目数
```
py
...
...
@@ -710,11 +710,11 @@ load_bytes(bytes_data, key, bucket_name=None, replace=False, encrypt=False)
参数:
*
**bytes_data**
( bytes )
- 设置为密钥内容的字节。
*
**key**
( str )
- 指向文件的S3键
*
**bucket_name**
( str )
- 存储文件的存储桶的名称
*
**replace**
( bool )
- 一个标志,用于决定是否覆盖密钥(如果已存在)
*
**encrypt**
( bool )
- 如果为True,则文件将在服务器端由S3加密,并在S3中静止时以加密形式存储。
*
`bytes_data( bytes )`
- 设置为密钥内容的字节。
*
`key( str )`
- 指向文件的S3键
*
`bucket_name( str )`
- 存储文件的存储桶的名称
*
`replace( bool )`
- 一个标志,用于决定是否覆盖密钥(如果已存在)
*
`encrypt( bool )`
- 如果为True,则文件将在服务器端由S3加密,并在S3中静止时以加密形式存储。
```
py
...
...
@@ -725,11 +725,11 @@ load_file(filename, key, bucket_name=None, replace=False, encrypt=False)
参数:
*
**filename**
( str )
- 要加载的文件的名称。
*
**key**
( str )
- 指向文件的S3键
*
**bucket_name**
( str )
- 存储文件的存储桶的名称
*
**replace**
( bool )
- 一个标志,用于决定是否覆盖密钥(如果已存在)。 如果replace为False且密钥存在,则会引发错误。
*
**encrypt**
( bool )
- 如果为True,则文件将在服务器端由S3加密,并在S3中静止时以加密形式存储。
*
`filename( str )`
- 要加载的文件的名称。
*
`key( str )`
- 指向文件的S3键
*
`bucket_name( str )`
- 存储文件的存储桶的名称
*
`replace( bool )`
- 一个标志,用于决定是否覆盖密钥(如果已存在)。 如果replace为False且密钥存在,则会引发错误。
*
`encrypt( bool )`
- 如果为True,则文件将在服务器端由S3加密,并在S3中静止时以加密形式存储。
```
py
...
...
@@ -742,11 +742,11 @@ load_string(string_data, key, bucket_name=None, replace=False, encrypt=False, en
参数:
*
**string_data**
( str )
- 要设置为键的内容的字符串。
*
**key**
( str )
- 指向文件的S3键
*
**bucket_name**
( str )
- 存储文件的存储桶的名称
*
**replace**
( bool )
- 一个标志,用于决定是否覆盖密钥(如果已存在)
*
**encrypt**
( bool )
- 如果为True,则文件将在服务器端由S3加密,并在S3中静止时以加密形式存储。
*
`string_data( str )`
- 要设置为键的内容的字符串。
*
`key( str )`
- 指向文件的S3键
*
`bucket_name( str )`
- 存储文件的存储桶的名称
*
`replace( bool )`
- 一个标志,用于决定是否覆盖密钥(如果已存在)
*
`encrypt( bool )`
- 如果为True,则文件将在服务器端由S3加密,并在S3中静止时以加密形式存储。
```
py
...
...
@@ -757,8 +757,8 @@ read_key(key, bucket_name=None)
参数:
*
**key**
( str )
- 指向文件的S3键
*
**bucket_name**
( str )
- 存储文件的存储桶的名称
*
`key( str )`
- 指向文件的S3键
*
`bucket_name( str )`
- 存储文件的存储桶的名称
```
py
...
...
@@ -769,12 +769,12 @@ select_key(key, bucket_name=None, expression='SELECT * FROM S3Object', expressio
参数:
*
**key**
( str )
- 指向文件的S3键
*
**bucket_name**
( str )
- 存储文件的存储桶的名称
*
**expression**
( str )
- S3选择表达式
*
**expression_type**
( str )
- S3选择表达式类型
*
**input_serialization**
( dict )
- S3选择输入数据序列化格式
*
**output_serialization**
( dict )
- S3选择输出数据序列化格式
*
`key( str )`
- 指向文件的S3键
*
`bucket_name( str )`
- 存储文件的存储桶的名称
*
`expression( str )`
- S3选择表达式
*
`expression_type( str )`
- S3选择表达式类型
*
`input_serialization( dict )`
- S3选择输入数据序列化格式
*
`output_serialization( dict )`
- S3选择输出数据序列化格式
返回:通过S3 Select检索原始数据的子集
...
...
@@ -800,13 +800,13 @@ S3 Select也可用于过滤源内容。 如果指定了S3 Select表达式,则
参数:
*
**source_s3_key**
( str )
- 从S3检索的密钥。 (模板)
*
**source_aws_conn_id**
( str )
- 源s3连接
*
**dest_s3_key**
( str )
- 从S3写入的密钥。 (模板)
*
**dest_aws_conn_id**
( str )
- 目标s3连接
*
**replace**
( bool )
- 替换dest S3密钥(如果已存在)
*
**transform_script**
( str )
- 可执行转换脚本的位置
*
**select_expression**
( str )
- S3选择表达式
*
`source_s3_key( str )`
- 从S3检索的密钥。 (模板)
*
`source_aws_conn_id( str )`
- 源s3连接
*
`dest_s3_key( str )`
- 从S3写入的密钥。 (模板)
*
`dest_aws_conn_id( str )`
- 目标s3连接
*
`replace( bool )`
- 替换dest S3密钥(如果已存在)
*
`transform_script( str )`
- 可执行转换脚本的位置
*
`select_expression( str )`
- S3选择表达式
#### S3ListOperator
...
...
@@ -823,10 +823,10 @@ class airflow.contrib.operators.s3listoperator.S3ListOperator(bucket, prefix='',
参数:
*
**bucket**
( str )
- S3存储桶在哪里找到对象。 (模板)
*
**prefix**
( str )
- 用于过滤名称以此前缀开头的对象的前缀字符串。 (模板)
*
**delimiter**
( str )
- 分隔符标记键层次结构。 (模板)
*
**aws_conn_id**
( str )
- 连接到S3存储时使用的连接ID。
*
`bucket( str )`
- S3存储桶在哪里找到对象。 (模板)
*
`prefix( str )`
- 用于过滤名称以此前缀开头的对象的前缀字符串。 (模板)
*
`delimiter( str )`
- 分隔符标记键层次结构。 (模板)
*
`aws_conn_id( str )`
- 连接到S3存储时使用的连接ID。
```
py
...
...
@@ -858,14 +858,14 @@ class airflow.contrib.operators.s3_to_gcs_operator.S3ToGoogleCloudStorageOperato
参数:
*
**bucket**
( str )
- S3存储桶在哪里找到对象。 (模板)
*
**prefix**
( str )
- 前缀字符串,用于过滤名称以此前缀开头的对象。 (模板)
*
**delimiter**
( str )
- 分隔符标记键层次结构。 (模板)
*
**aws_conn_id**
( str )
- 源S3连接
*
**dest_gcs_conn_id**
( str )
- 连接到Google云端存储时要使用的目标连接ID。
*
**dest_gcs**
( str )
- 要存储文件的目标Google云端存储
**分区**
和前缀。 (模板)
*
**delegate_to**
( str )
- 模拟的帐户(如果有)。 为此,发出请求的服务帐户必须启用域范围委派。
*
**replace**
( bool )
- 是否要替换现有目标文件。
*
`bucket( str )`
- S3存储桶在哪里找到对象。 (模板)
*
`prefix( str )`
- 前缀字符串,用于过滤名称以此前缀开头的对象。 (模板)
*
`delimiter( str )`
- 分隔符标记键层次结构。 (模板)
*
`aws_conn_id( str )`
- 源S3连接
*
`dest_gcs_conn_id( str )`
- 连接到Google云端存储时要使用的目标连接ID。
*
`dest_gcs( str )`
- 要存储文件的目标Google云端存储
**分区**
和前缀。 (模板)
*
`delegate_to( str )`
- 模拟的帐户(如果有)。 为此,发出请求的服务帐户必须启用域范围委派。
*
`replace( bool )`
- 是否要替换现有目标文件。
**示例**
:.. code-block :: python
...
...
@@ -892,21 +892,21 @@ class airflow.operators.s3_to_hive_operator.S3ToHiveTransfer(s3_key, field_dict,
参数:
*
**s3_key**
( str )
- 从S3检索的密钥。 (模板)
*
**field_dict**
( dict )
- 字段的字典在文件中命名为键,其Hive类型为值
*
**hive_table**
( str )
- 目标Hive表,使用点表示法来定位特定数据库。 (模板)
*
**create**
( bool )
- 是否创建表,如果它不存在
*
**recreate**
( bool )
- 是否在每次执行时删除并重新创建表
*
**partition**
( dict )
- 将目标分区作为分区列和值的字典。 (模板)
*
**headers**
( bool )
- 文件是否包含第一行的列名
*
**check_headers**
( bool )
- 是否应该根据field_dict的键检查第一行的列名
*
**wildcard_match**
( bool )
- 是否应将s3_key解释为Unix通配符模式
*
**delimiter**
( str )
- 文件中的字段分隔符
*
**aws_conn_id**
( str )
- 源s3连接
*
**hive_cli_conn_id**
( str )
- 目标配置单元连接
*
**input_compressed**
( bool )
- 布尔值,用于确定是否需要文件解压缩来处理标头
*
**tblproperties**
( dict )
- 正在创建的hive表的TBLPROPERTIES
*
**select_expression**
( str )
- S3选择表达式
*
`s3_key( str )`
- 从S3检索的密钥。 (模板)
*
`field_dict( dict )`
- 字段的字典在文件中命名为键,其Hive类型为值
*
`hive_table( str )`
- 目标Hive表,使用点表示法来定位特定数据库。 (模板)
*
`create( bool )`
- 是否创建表,如果它不存在
*
`recreate( bool )`
- 是否在每次执行时删除并重新创建表
*
`partition( dict )`
- 将目标分区作为分区列和值的字典。 (模板)
*
`headers( bool )`
- 文件是否包含第一行的列名
*
`check_headers( bool )`
- 是否应该根据field_dict的键检查第一行的列名
*
`wildcard_match( bool )`
- 是否应将s3_key解释为Unix通配符模式
*
`delimiter( str )`
- 文件中的字段分隔符
*
`aws_conn_id( str )`
- 源s3连接
*
`hive_cli_conn_id( str )`
- 目标配置单元连接
*
`input_compressed( bool )`
- 布尔值,用于确定是否需要文件解压缩来处理标头
*
`tblproperties( dict )`
- 正在创建的hive表的TBLPROPERTIES
*
`select_expression( str )`
- S3选择表达式
### AWS EC2容器服务
...
...
@@ -925,9 +925,9 @@ class airflow.contrib.operators.ecs_operator.ECSOperator(task_definition, cluste
参数:
*
**task_definition**
( str )
- EC2容器服务上的任务定义名称
*
**cluster**
( str )
- EC2 Container Service上的群集名称
*
**aws_conn_id**
( str )
- AWS凭证/区域名称的连接ID。 如果为None,将使用凭证boto3策略(
[
http://boto3.readthedocs.io/en/latest/guide/configuration.html
](
http://boto3.readthedocs.io/en/latest/guide/configuration.html
)
)。
*
`task_definition( str )`
- EC2容器服务上的任务定义名称
*
`cluster( str )`
- EC2 Container Service上的群集名称
*
`aws_conn_id( str )`
- AWS凭证/区域名称的连接ID。 如果为None,将使用凭证boto3策略(
[
http://boto3.readthedocs.io/en/latest/guide/configuration.html
](
http://boto3.readthedocs.io/en/latest/guide/configuration.html
)
)。
*
**region_name**
- 要在AWS Hook中使用的区域名称。 覆盖连接中的region_name(如果提供)
*
**launch_type**
- 运行任务的启动类型('EC2'或'FARGATE')
...
...
@@ -953,11 +953,11 @@ class airflow.contrib.operators.awsbatch_operator.AWSBatchOperator(job_name, job
参数:
*
**job_name**
( str )
- 将在AWS Batch上运行的作业的名称
*
**job_definition**
( str )
- AWS Batch上的作业定义名称
*
**job_queue**
( str )
- AWS Batch上的队列名称
*
**max_retries**
( int )
- 服务器未合并时的指数退避重试,4200 = 48小时
*
**aws_conn_id**
( str )
- AWS凭证/区域名称的连接ID。 如果为None,将使用凭证boto3策略(
[
http://boto3.readthedocs.io/en/latest/guide/configuration.html
](
http://boto3.readthedocs.io/en/latest/guide/configuration.html
)
)。
*
`job_name( str )`
- 将在AWS Batch上运行的作业的名称
*
`job_definition( str )`
- AWS Batch上的作业定义名称
*
`job_queue( str )`
- AWS Batch上的队列名称
*
`max_retries( int )`
- 服务器未合并时的指数退避重试,4200 = 48小时
*
`aws_conn_id( str )`
- AWS凭证/区域名称的连接ID。 如果为None,将使用凭证boto3策略(
[
http://boto3.readthedocs.io/en/latest/guide/configuration.html
](
http://boto3.readthedocs.io/en/latest/guide/configuration.html
)
)。
*
**region_name**
- 要在AWS Hook中使用的区域名称。 覆盖连接中的region_name(如果提供)
参数:覆盖:boto3将在containerOverrides上接收的相同参数(模板化):
[
http
](
http://boto3.readthedocs.io/en/latest/reference/services/batch.html
)
://boto3.readthedocs.io/en/latest/reference/services/batch.html#submit_job
...
...
@@ -983,8 +983,8 @@ class airflow.contrib.sensors.aws_redshift_cluster_sensor.AwsRedshiftClusterSens
参数:
*
**cluster_identifier**
( str )
- 要ping的集群的标识符。
*
**target_status**
( str )
- 所需的集群状态。
*
`cluster_identifier( str )`
- 要ping的集群的标识符。
*
`target_status( str )`
- 所需的集群状态。
```
py
...
...
@@ -1009,7 +1009,7 @@ cluster_status(cluster_identifier)
返回群集的状态
参数:
**cluster_identifier**
( str )
- 集群的唯一标识符
参数:
`cluster_identifier( str )`
- 集群的唯一标识符
```
py
...
...
@@ -1020,8 +1020,8 @@ create_cluster_snapshot(snapshot_identifier, cluster_identifier)
参数:
*
**snapshot_identifier**
( str )
- 群集快照的唯一标识符
*
**cluster_identifier**
( str )
- 集群的唯一标识符
*
`snapshot_identifier( str )`
- 群集快照的唯一标识符
*
`cluster_identifier( str )`
- 集群的唯一标识符
```
py
...
...
@@ -1032,9 +1032,9 @@ delete_cluster(cluster_identifier, skip_final_cluster_snapshot=True, final_clust
参数:
*
**cluster_identifier**
( str )
- 集群的唯一标识符
*
**skip_final_cluster_snapshot**
( bool )
- 确定群集快照创建
*
**final_cluster_snapshot_identifier**
( str )
- 最终集群快照的名称
*
`cluster_identifier( str )`
- 集群的唯一标识符
*
`skip_final_cluster_snapshot( bool )`
- 确定群集快照创建
*
`final_cluster_snapshot_identifier( str )`
- 最终集群快照的名称
```
py
...
...
@@ -1043,7 +1043,7 @@ describe_cluster_snapshots(cluster_identifier)
获取群集的快照列表
参数:
**cluster_identifier**
( str )
- 集群的唯一标识符
参数:
`cluster_identifier( str )`
- 集群的唯一标识符
```
py
...
...
@@ -1054,8 +1054,8 @@ restore_from_cluster_snapshot(cluster_identifier, snapshot_identifier)
参数:
*
**cluster_identifier**
( str )
- 集群的唯一标识符
*
**snapshot_identifier**
(str)
- 群集快照的唯一标识符
*
`cluster_identifier( str )`
- 集群的唯一标识符
*
`snapshot_identifier(str)`
- 群集快照的唯一标识符
#### RedshiftToS3Transfer
...
...
@@ -1070,13 +1070,13 @@ class airflow.operators.redshift_to_s3_operator.RedshiftToS3Transfer(schema,
参数:
*
**schema**
(str)
- 对redshift数据库中特定模式的引用
*
**table**
(str)
- 对redshift数据库中特定表的引用
*
**s3_bucket**
(str)
- 对特定S3存储桶的引用
*
**s3_key**
(str)
- 对特定S3密钥的引用
*
**redshift_conn_id**
(str)
- 对特定redshift数据库的引用
*
**aws_conn_id**
(str)
- 对特定S3连接的引用
*
**unload_options**
(list)
- 对UNLOAD选项列表的引用
*
`schema(str)`
- 对redshift数据库中特定模式的引用
*
`table(str)`
- 对redshift数据库中特定表的引用
*
`s3_bucket(str)`
- 对特定S3存储桶的引用
*
`s3_key(str)`
- 对特定S3密钥的引用
*
`redshift_conn_id(str)`
- 对特定redshift数据库的引用
*
`aws_conn_id(str)`
- 对特定S3连接的引用
*
`unload_options(list)`
- 对UNLOAD选项列表的引用
#### S3ToRedshiftTransfer
...
...
@@ -1091,13 +1091,13 @@ class airflow.operators.s3_to_redshift_operator.S3ToRedshiftTransfer(schema,
参数:
*
**schema**
(str)
- 对redshift数据库中特定模式的引用
*
**table**
(str)
- 对redshift数据库中特定表的引用
*
**s3_bucket**
(str)
- 对特定S3存储桶的引用
*
**s3_key**
(str)
- 对特定S3密钥的引用
*
**redshift_conn_id**
(str)
- 对特定redshift数据库的引用
*
**aws_conn_id**
(str)
- 对特定S3连接的引用
*
**copy_options**
(list)
- 对COPY选项列表的引用
*
`schema(str)`
- 对redshift数据库中特定模式的引用
*
`table(str)`
- 对redshift数据库中特定表的引用
*
`s3_bucket(str)`
- 对特定S3存储桶的引用
*
`s3_key(str)`
- 对特定S3密钥的引用
*
`redshift_conn_id(str)`
- 对特定redshift数据库的引用
*
`aws_conn_id(str)`
- 对特定S3连接的引用
*
`copy_options(list)`
- 对COPY选项列表的引用
## Databricks
...
...
@@ -1165,7 +1165,7 @@ notebook_run = DatabricksSubmitRunOperator (
参数:
*
**json**
(dict)
-
*
`json(dict)`
-
包含API参数的JSON对象,将直接传递给`api/2.0/jobs/runs/submit`端点。其他命名参数(即`spark_jar_task`,`notebook_task`..)到该运营商将与此JSON字典合并如果提供他们。如果在合并期间存在冲突,则命名参数将优先并覆盖顶级json键。(模板)
...
...
@@ -1173,7 +1173,7 @@ notebook_run = DatabricksSubmitRunOperator (
有关模板的更多信息,请参阅[Jinja模板](concepts.html)。[https://docs.databricks.com/api/latest/jobs.html#runs-submit](https://docs.databricks.com/api/latest/jobs.html)
*
**spark_jar_task**
(dict)
-
*
`spark_jar_task(dict)`
-
JAR任务的主要类和参数。请注意,实际的JAR在`libraries`。中指定。_无论是_ `spark_jar_task` _或_ `notebook_task`应符合规定。该字段将被模板化。
...
...
@@ -1181,7 +1181,7 @@ notebook_run = DatabricksSubmitRunOperator (
[https://docs.databricks.com/api/latest/jobs.html#jobssparkjartask](https://docs.databricks.com/api/latest/jobs.html)
*
**notebook_task**
(dict)
-
*
`notebook_task(dict)`
-
笔记本任务的笔记本路径和参数。_无论是_ `spark_jar_task` _或_ `notebook_task`应符合规定。该字段将被模板化。
...
...
@@ -1189,7 +1189,7 @@ notebook_run = DatabricksSubmitRunOperator (
[https://docs.databricks.com/api/latest/jobs.html#jobsnotebooktask](https://docs.databricks.com/api/latest/jobs.html)
*
**new_cluster**
(dict)
-
*
`new_cluster(dict)`
-
将在其上运行此任务的新群集的规范。_无论是_ `new_cluster` _或_ `existing_cluster_id`应符合规定。该字段将被模板化。
...
...
@@ -1197,8 +1197,8 @@ notebook_run = DatabricksSubmitRunOperator (
[https://docs.databricks.com/api/latest/jobs.html#jobsclusterspecnewcluster](https://docs.databricks.com/api/latest/jobs.html)
*
**existing_cluster_id**
(str)
- 要运行此任务的现有集群的ID。_无论是_
`new_cluster`
_或_
`existing_cluster_id`
应符合规定。该字段将被模板化。
*
**图书馆**
(list[dict])
-
*
`existing_cluster_id(str)`
- 要运行此任务的现有集群的ID。_无论是_
`new_cluster`
_或_
`existing_cluster_id`
应符合规定。该字段将被模板化。
*
`图书馆(list[dict])`
-
这个运行的库将使用。该字段将被模板化。
...
...
@@ -1206,12 +1206,12 @@ notebook_run = DatabricksSubmitRunOperator (
[https://docs.databricks.com/api/latest/libraries.html#managedlibrarieslibrary](https://docs.databricks.com/api/latest/libraries.html)
*
**run_name**
(str)
- 用于此任务的运行名称。默认情况下,这将设置为Airflow
`task_id`
。这
`task_id`
是超类的必需参数
`BaseOperator`
。该字段将被模板化。
*
**timeout_seconds**
(int32)
- 此次运行的超时。默认情况下,使用值0表示没有超时。该字段将被模板化。
*
**databricks_conn_id**
(str)
- 要使用的Airflow连接的名称。默认情况下,在常见情况下,这将是
`databricks_default`
。要使用基于令牌的身份验证,请
`token`
在连接的额外字段中提供密钥。
*
**polling_period_seconds**
(int)
- 控制我们轮询此运行结果的速率。默认情况下,操作员每30秒轮询一次。
*
**databricks_retry_limit**
(int)
- 如果Databricks后端无法访问,则重试的次数。其值必须大于或等于1。
*
**do_xcom_push**
(bool)
- 我们是否应该将run_id和run_page_url推送到xcom。
*
`run_name(str)`
- 用于此任务的运行名称。默认情况下,这将设置为Airflow
`task_id`
。这
`task_id`
是超类的必需参数
`BaseOperator`
。该字段将被模板化。
*
`timeout_seconds(int32)`
- 此次运行的超时。默认情况下,使用值0表示没有超时。该字段将被模板化。
*
`databricks_conn_id(str)`
- 要使用的Airflow连接的名称。默认情况下,在常见情况下,这将是
`databricks_default`
。要使用基于令牌的身份验证,请
`token`
在连接的额外字段中提供密钥。
*
`polling_period_seconds(int)`
- 控制我们轮询此运行结果的速率。默认情况下,操作员每30秒轮询一次。
*
`databricks_retry_limit(int)`
- 如果Databricks后端无法访问,则重试的次数。其值必须大于或等于1。
*
`do_xcom_push(bool)`
- 我们是否应该将run_id和run_page_url推送到xcom。
## GCP:Google云端平台
...
...
@@ -1262,8 +1262,8 @@ class airflow.contrib.operators.bigquery_check_operator.BigQueryCheckOperator(
参数:
*
**sql**
(str)
- 要执行的sql
*
**bigquery_conn_id**
(str)
- 对BigQuery数据库的引用
*
`sql(str)`
- 要执行的sql
*
`bigquery_conn_id(str)`
- 对BigQuery数据库的引用
##### BigQueryValueCheckOperator
...
...
@@ -1276,7 +1276,7 @@ class airflow.contrib.operators.bigquery_check_operator.BigQueryValueCheckOperat
使用sql代码执行简单的值检查。
参数:
**sql**
(str)
- 要执行的sql
参数:
`sql(str)`
- 要执行的sql
##### BigQueryIntervalCheckOperator
...
...
@@ -1299,9 +1299,9 @@ class airflow.contrib.operators.bigquery_check_operator.BigQueryIntervalCheckOpe
参数:
*
**table**
(str)
- 表名
*
**days_back**
(int)
- ds与我们要检查的ds之间的天数。默认为7天
*
**metrics_threshold**
(dict)
- 由指标索引的比率字典,例如'COUNT(
*
)':1.5将需要当前日和之前的days_back之间50%或更小的差异。
*
`table(str)`
- 表名
*
`days_back(int)`
- ds与我们要检查的ds之间的天数。默认为7天
*
`metrics_threshold(dict)`
- 由指标索引的比率字典,例如'COUNT(
*
)':1.5将需要当前日和之前的days_back之间50%或更小的差异。
##### BigQueryGetDataOperator
...
...
@@ -1337,11 +1337,11 @@ class airflow.contrib.operators.bigquery_get_data.BigQueryGetDataOperator(data
参数:
*
**dataset_id**
- 请求的表的数据集ID。(模板)
*
**table_id**
(str)
- 请求表的表ID。(模板)
*
**max_results**
(str)
- 从表中获取的最大记录数(行数)。(模板)
*
**selected_fields**
(str)
- 要返回的字段列表(逗号分隔)。如果未指定,则返回所有字段。
*
**bigquery_conn_id**
(str)
- 对特定BigQuery钩子的引用。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`table_id(str)`
- 请求表的表ID。(模板)
*
`max_results(str)`
- 从表中获取的最大记录数(行数)。(模板)
*
`selected_fields(str)`
- 要返回的字段列表(逗号分隔)。如果未指定,则返回所有字段。
*
`bigquery_conn_id(str)`
- 对特定BigQuery钩子的引用。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
##### BigQueryCreateEmptyTableOperator
...
...
@@ -1358,10 +1358,10 @@ class airflow.contrib.operators.bigquery_operator.BigQueryCreateEmptyTableOperat
参数:
*
**project_id**
(str)
- 将表创建的项目。(模板)
*
**dataset_id**
(str)
- 用于创建表的数据集。(模板)
*
**table_id**
(str)
- 要创建的表的名称。(模板)
*
**schema_fields**
(list)
-
*
`project_id(str)`
- 将表创建的项目。(模板)
*
`dataset_id(str)`
- 用于创建表的数据集。(模板)
*
`table_id(str)`
- 要创建的表的名称。(模板)
*
`schema_fields(list)`
-
如果设置,则此处定义的架构字段列表:[https](https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs):[//cloud.google.com/bigquery/docs/reference/rest/v2/jobs#configuration.load.schema](https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs)
...
...
@@ -1373,8 +1373,8 @@ class airflow.contrib.operators.bigquery_operator.BigQueryCreateEmptyTableOperat
```
*
**gcs_schema_object**
(str)
- 包含模式(模板化)的JSON文件的完整路径。例如:
`gs://test-bucket/dir1/dir2/employee_schema.json`
*
**time_partitioning**
(dict)
-
*
`gcs_schema_object(str)`
- 包含模式(模板化)的JSON文件的完整路径。例如:
`gs://test-bucket/dir1/dir2/employee_schema.json`
*
`time_partitioning(dict)`
-
配置可选的时间分区字段,即按API规范按字段,类型和到期分区。
...
...
@@ -1382,9 +1382,9 @@ class airflow.contrib.operators.bigquery_operator.BigQueryCreateEmptyTableOperat
[https://cloud.google.com/bigquery/docs/reference/rest/v2/tables#timePartitioning](https://cloud.google.com/bigquery/docs/reference/rest/v2/tables)
*
**bigquery_conn_id**
(str)
- 对特定BigQuery挂钩的引用。
*
**google_cloud_storage_conn_id**
(str)
- 对特定Google云存储挂钩的引用。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`bigquery_conn_id(str)`
- 对特定BigQuery挂钩的引用。
*
`google_cloud_storage_conn_id(str)`
- 对特定Google云存储挂钩的引用。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
**示例(在GCS中使用模式JSON)**
:
...
...
@@ -1450,10 +1450,10 @@ class airflow.contrib.operators.bigquery_operator.BigQueryCreateExternalTableOpe
参数:
*
**bucket**
(str)
- 指向外部表的存储桶。(模板)
*
`bucket(str)`
- 指向外部表的存储桶。(模板)
*
**source_objects**
- 指向表格的Google云存储URI列表。(模板化)如果source_format是'DATASTORE_BACKUP',则列表必须只包含一个URI。
*
**destination_project_dataset_table**
(str)
- 用于将数据加载到(模板化)的虚线(
<
project
>
。)
<
dataset
>
。
<
table
>
BigQuery表。如果未包含
<
project
>
,则项目将是连接json中定义的项目。
*
**schema_fields**
(list)
-
*
`destination_project_dataset_table(str)`
- 用于将数据加载到(模板化)的虚线(
<
project
>
。)
<
dataset
>
。
<
table
>
BigQuery表。如果未包含
<
project
>
,则项目将是连接json中定义的项目。
*
`schema_fields(list)`
-
如果设置,则此处定义的架构字段列表:[https](https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs):[//cloud.google.com/bigquery/docs/reference/rest/v2/jobs#configuration.load.schema](https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs)
...
...
@@ -1469,18 +1469,18 @@ class airflow.contrib.operators.bigquery_operator.BigQueryCreateExternalTableOpe
*
**schema_object**
- 如果设置,则指向包含表的架构的.json文件的GCS对象路径。(模板)
*
**schema_object**
- 字符串
*
**source_format**
(str)
- 数据的文件格式。
*
**compression**
(str)
- [可选]数据源的压缩类型。可能的值包括GZIP和NONE。默认值为NONE。Google Cloud Bigtable,Google Cloud Datastore备份和Avro格式会忽略此设置。
*
**skip_leading_rows**
(int)
- 从CSV加载时要跳过的行数。
*
**field_delimiter**
(str)
- 用于CSV的分隔符。
*
**max_bad_records**
(int)
- BigQuery在运行作业时可以忽略的最大错误记录数。
*
**quote_character**
(str)
- 用于引用CSV文件中数据部分的值。
*
**allow_quoted_newlines**
(bool)
- 是否允许引用的换行符(true)或不允许(false)。
*
**allow_jagged_rows**
(bool)
- 接受缺少尾随可选列的行。缺失值被视为空值。如果为false,则缺少尾随列的记录将被视为错误记录,如果错误记录太多,则会在作业结果中返回无效错误。仅适用于CSV,忽略其他格式。
*
**bigquery_conn_id**
(str)
- 对特定BigQuery挂钩的引用。
*
**google_cloud_storage_conn_id**
(str)
- 对特定Google云存储挂钩的引用。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**src_fmt_configs**
(dict)
- 配置特定于源格式的可选字段
*
`source_format(str)`
- 数据的文件格式。
*
`compression(str)`
- [可选]数据源的压缩类型。可能的值包括GZIP和NONE。默认值为NONE。Google Cloud Bigtable,Google Cloud Datastore备份和Avro格式会忽略此设置。
*
`skip_leading_rows(int)`
- 从CSV加载时要跳过的行数。
*
`field_delimiter(str)`
- 用于CSV的分隔符。
*
`max_bad_records(int)`
- BigQuery在运行作业时可以忽略的最大错误记录数。
*
`quote_character(str)`
- 用于引用CSV文件中数据部分的值。
*
`allow_quoted_newlines(bool)`
- 是否允许引用的换行符(true)或不允许(false)。
*
`allow_jagged_rows(bool)`
- 接受缺少尾随可选列的行。缺失值被视为空值。如果为false,则缺少尾随列的记录将被视为错误记录,如果错误记录太多,则会在作业结果中返回无效错误。仅适用于CSV,忽略其他格式。
*
`bigquery_conn_id(str)`
- 对特定BigQuery挂钩的引用。
*
`google_cloud_storage_conn_id(str)`
- 对特定Google云存储挂钩的引用。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`src_fmt_configs(dict)`
- 配置特定于源格式的可选字段
##### BigQueryDeleteDatasetOperator
...
...
@@ -1497,23 +1497,23 @@ class airflow.contrib.operators.bigquery_operator.BigQueryOperator(bql = None
参数:
*
**BQL**
(可接收表示SQL语句中的海峡,海峡列表(SQL语句),或参照模板文件模板引用在“.SQL”结束海峡认可。)
- (不推荐使用。
`SQL`
参数代替)要执行的sql代码(模板化)
*
**SQL**
(可接收表示SQL语句中的海峡,海峡列表(SQL语句),或参照模板文件模板引用在“.SQL”结束海峡认可。)
- SQL代码被执行(模板)
*
**destination_dataset_table**
(str)
- 一个虚线(
<
project
>
。
|
<
project
>
:)
<
dataset
>
。
<
table
>
,如果设置,将存储查询结果。(模板)
*
**write_disposition**
(str)
- 指定目标表已存在时发生的操作。(默认:'WRITE_EMPTY')
*
**create_disposition**
(str)
- 指定是否允许作业创建新表。(默认值:'CREATE_IF_NEEDED')
*
**allow_large_results**
(bool)
- 是否允许大结果。
*
**flatten_results**
(bool)
- 如果为true且查询使用旧版SQL方言,则展平查询结果中的所有嵌套和重复字段。
`allow_large_results`
必须是
`true`
如果设置为
`false`
。对于标准SQL查询,将忽略此标志,并且结果永远不会展平。
*
**bigquery_conn_id**
(str)
- 对特定BigQuery钩子的引用。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**udf_config**
(list)
- 查询的用户定义函数配置。有关详细信息,请参阅
[
https://cloud.google.com/bigquery/user-defined-functions
](
https://cloud.google.com/bigquery/user-defined-functions
)
。
*
**use_legacy_sql**
(bool)
- 是使用旧SQL(true)还是标准SQL(false)。
*
**maximum_billing_tier**
(_整数_)
- 用作基本价格乘数的正整数。默认为None,在这种情况下,它使用项目中设置的值。
*
**maximumbytesbilled**
(_float_)
- 限制为此作业计费的字节数。超出此限制的字节数的查询将失败(不会产生费用)。如果未指定,则将其设置为项目默认值。
*
**schema_update_options**
(_tuple_)
- 允许更新目标表的模式作为加载作业的副作用。
*
**query_params**
(dict)
- 包含查询参数类型和值的字典,传递给BigQuery。
*
**priority**
(str)
- 指定查询的优先级。可能的值包括INTERACTIVE和BATCH。默认值为INTERACTIVE。
*
**time_partitioning**
(dict)
- 配置可选的时间分区字段,即按API规范按字段,类型和到期分区。请注意,'field'不能与dataset.table $ partition一起使用。
*
`BQL(可接收表示SQL语句中的海峡,海峡列表(SQL语句),或参照模板文件模板引用在“.SQL”结束海峡认可。)`
- (不推荐使用。
`SQL`
参数代替)要执行的sql代码(模板化)
*
`SQL(可接收表示SQL语句中的海峡,海峡列表(SQL语句),或参照模板文件模板引用在“.SQL”结束海峡认可。)`
- SQL代码被执行(模板)
*
`destination_dataset_table(str)`
- 一个虚线(
<
project
>
。
|
<
project
>
:)
<
dataset
>
。
<
table
>
,如果设置,将存储查询结果。(模板)
*
`write_disposition(str)`
- 指定目标表已存在时发生的操作。(默认:'WRITE_EMPTY')
*
`create_disposition(str)`
- 指定是否允许作业创建新表。(默认值:'CREATE_IF_NEEDED')
*
`allow_large_results(bool)`
- 是否允许大结果。
*
`flatten_results(bool)`
- 如果为true且查询使用旧版SQL方言,则展平查询结果中的所有嵌套和重复字段。
`allow_large_results`
必须是
`true`
如果设置为
`false`
。对于标准SQL查询,将忽略此标志,并且结果永远不会展平。
*
`bigquery_conn_id(str)`
- 对特定BigQuery钩子的引用。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`udf_config(list)`
- 查询的用户定义函数配置。有关详细信息,请参阅
[
https://cloud.google.com/bigquery/user-defined-functions
](
https://cloud.google.com/bigquery/user-defined-functions
)
。
*
`use_legacy_sql(bool)`
- 是使用旧SQL(true)还是标准SQL(false)。
*
`maximum_billing_tier(int)`
- 用作基本价格乘数的正整数。默认为None,在这种情况下,它使用项目中设置的值。
*
`maximumbytesbilled(float)`
- 限制为此作业计费的字节数。超出此限制的字节数的查询将失败(不会产生费用)。如果未指定,则将其设置为项目默认值。
*
`schema_update_options(tuple)`
- 允许更新目标表的模式作为加载作业的副作用。
*
`query_params(dict)`
- 包含查询参数类型和值的字典,传递给BigQuery。
*
`priority(str)`
- 指定查询的优先级。可能的值包括INTERACTIVE和BATCH。默认值为INTERACTIVE。
*
`time_partitioning(dict)`
- 配置可选的时间分区字段,即按API规范按字段,类型和到期分区。请注意,'field'不能与dataset.table $ partition一起使用。
##### BigQueryTableDeleteOperator
...
...
@@ -1528,10 +1528,10 @@ class airflow.contrib.operators.bigquery_table_delete_operator.BigQueryTableDele
参数:
*
**deletion_dataset_table**
(str)
- 一个虚线(
<
project
>
。
|
<
project
>
:)
<
dataset
>
。
<
table
>
,指示将删除哪个表。(模板)
*
**bigquery_conn_id**
(str)
- 对特定BigQuery钩子的引用。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**ignore_if_missing**
(bool)
- 如果为True,则即使请求的表不存在也返回成功。
*
`deletion_dataset_table(str)`
- 一个虚线(
<
project
>
。
|
<
project
>
:)
<
dataset
>
。
<
table
>
,指示将删除哪个表。(模板)
*
`bigquery_conn_id(str)`
- 对特定BigQuery钩子的引用。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`ignore_if_missing(bool)`
- 如果为True,则即使请求的表不存在也返回成功。
##### BigQueryToBigQueryOperator
...
...
@@ -1550,12 +1550,12 @@ class airflow.contrib.operators.bigquery_to_bigquery.BigQueryToBigQueryOperator
参数:
*
**source_project_dataset_tables**
(_list
|
string_)
- 一个或多个点(项目:
[
|
](
28
)
项目。)
<
dataset
>
。
<
table
>
用作源数据的BigQuery表。如果未包含
<
project
>
,则项目将是连接json中定义的项目。如果有多个源表,请使用列表。(模板)
*
**destination_project_dataset_table**
(str)
- 目标BigQuery表。格式为:(project:
[
|
](
28
)
project。)
<
dataset
>
。
<
table
>
(模板化)
*
**write_disposition**
(str)
- 表已存在时的写处置。
*
**create_disposition**
(str)
- 如果表不存在,则创建处置。
*
**bigquery_conn_id**
(str)
- 对特定BigQuery钩子的引用。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`source_project_dataset_tables(list[str])`
- 一个或多个点(项目:
[
|
](
28
)
项目。)
<
dataset
>
。
<
table
>
用作源数据的BigQuery表。如果未包含
<
project
>
,则项目将是连接json中定义的项目。如果有多个源表,请使用列表。(模板)
*
`destination_project_dataset_table(str)`
- 目标BigQuery表。格式为:(project:
[
|
](
28
)
project。)
<
dataset
>
。
<
table
>
(模板化)
*
`write_disposition(str)`
- 表已存在时的写处置。
*
`create_disposition(str)`
- 如果表不存在,则创建处置。
*
`bigquery_conn_id(str)`
- 对特定BigQuery钩子的引用。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
##### BigQueryToCloudStorageOperator
...
...
@@ -1574,14 +1574,14 @@ class airflow.contrib.operators.bigquery_to_gcs.BigQueryToCloudStorageOperator
参数:
*
**source_project_dataset_table**
(str)
- 用作源数据的虚线(
<
project
>
。
|
<
project
>
:)
<
dataset
>
。
<
table
>
BigQuery表。如果未包含
<
project
>
,则项目将是连接json中定义的项目。(模板)
*
**destination_cloud_storage_uris**
(list)
- 目标Google云端存储URI(例如gs://some-bucket/some-file.txt)。(模板化)遵循此处定义的惯例:https://cloud.google.com/bigquery/exporting-data-from-bigquery#exportingmultiple
*
**compression**
(str)
- 要使用的压缩类型。
*
`source_project_dataset_table(str)`
- 用作源数据的虚线(
<
project
>
。
|
<
project
>
:)
<
dataset
>
。
<
table
>
BigQuery表。如果未包含
<
project
>
,则项目将是连接json中定义的项目。(模板)
*
`destination_cloud_storage_uris(list)`
- 目标Google云端存储URI(例如gs://some-bucket/some-file.txt)。(模板化)遵循此处定义的惯例:https://cloud.google.com/bigquery/exporting-data-from-bigquery#exportingmultiple
*
`compression(str)`
- 要使用的压缩类型。
*
**export_format**
- 要导出的文件格式。
*
**field_delimiter**
(str)
- 提取到CSV时使用的分隔符。
*
**print_header**
(bool)
- 是否打印CSV文件提取的标头。
*
**bigquery_conn_id**
(str)
- 对特定BigQuery钩子的引用。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`field_delimiter(str)`
- 提取到CSV时使用的分隔符。
*
`print_header(bool)`
- 是否打印CSV文件提取的标头。
*
`bigquery_conn_id(str)`
- 对特定BigQuery钩子的引用。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
#### BigQueryHook
...
...
@@ -1610,9 +1610,9 @@ get_pandas_df(sql,parameters = None,dialect = None)
参数:
*
**sql**
(str)
- 要执行的BigQuery SQL。
*
**参数**
(_映射_ _或_ _可迭代_)
- 用于呈现SQL查询的参数(未使用,请保留覆盖超类方法)
*
**dialect**
(_{'legacy' __,_ _'standard'}中的_str)
- BigQuery SQL的方言 - 遗留SQL或标准SQL默认使用
`self.use_legacy_sql(`
如果未指定)
*
`sql(str)`
- 要执行的BigQuery SQL。
*
`参数(map 或 iterable)`
- 用于呈现SQL查询的参数(未使用,请保留覆盖超类方法)
*
`dialect({'legacy', 'standard'})`
- BigQuery SQL的方言 - 遗留SQL或标准SQL默认使用
`self.use_legacy_sql(`
如果未指定)
```
py
...
...
@@ -1635,9 +1635,9 @@ table_exists(project_id,dataset_id,table_id)
参数:
*
**project_id**
(str)
- 要在其中查找表的Google云项目。提供给钩子的连接必须提供对指定项目的访问。
*
**dataset_id**
(str)
- 要在其中查找表的数据集的名称。
*
**table_id**
(str)
- 要检查的表的名称。
*
`project_id(str)`
- 要在其中查找表的Google云项目。提供给钩子的连接必须提供对指定项目的访问。
*
`dataset_id(str)`
- 要在其中查找表的数据集的名称。
*
`table_id(str)`
- 要检查的表的名称。
### 云DataFlow
...
...
@@ -1831,34 +1831,34 @@ class airflow.contrib.operators.dataproc_operator.DataprocClusterCreateOperator
参数:
*
**cluster_name**
(str)
- 要创建的DataProc集群的名称。(模板)
*
**project_id**
(str)
- 用于创建集群的Google云项目的ID。(模板)
*
**num_workers**
(int)
- 旋转的工人数量
*
**storage_bucket**
(str)
- 要使用的存储桶,设置为None允许dataproc为您生成自定义存储桶
*
**init_actions_uris**
(_list __[ __string __]_)
- 包含数据空间初始化脚本的GCS uri列表
*
**init_action_timeout**
(str)
- init_actions_uris中可执行脚本必须完成的时间
*
**元数据**
(_字典_)
- 要添加到所有实例的键值google计算引擎元数据条目的字典
*
**image_version**
(str)
- Dataproc集群内的软件版本
*
**属性**
(_字典_)
-性能上的配置文件设置的字典(如火花defaults.conf),见
[
https://cloud.google.com/dataproc/docs/reference/rest/v1/
](
https://cloud.google.com/dataproc/docs/reference/rest/v1/
)
projects.regions.clusters#SoftwareConfig
*
**master_machine_type**
(str)
- 计算要用于主节点的引擎机器类型
*
**master_disk_size**
(int)
- 主节点的磁盘大小
*
**worker_machine_type**
(str)
- 计算要用于工作节点的引擎计算机类型
*
**worker_disk_size**
(int)
- 工作节点的磁盘大小
*
**num_preemptible_workers**
(int)
- 要旋转的可抢占工作节点数
*
**labels**
(dict)
- 要添加到集群的标签的字典
*
**zone**
(str)
- 群集所在的区域。(模板)
*
**network_uri**
(str)
- 用于机器通信的网络uri,不能用subnetwork_uri指定
*
**subnetwork_uri**
(str)
- 无法使用network_uri指定要用于机器通信的子网uri
*
**internal_ip_only**
(bool)
- 如果为true,则群集中的所有实例将只具有内部IP地址。这只能为启用子网的网络启用
*
**tags**
(_list __[ __string __]_)
- 要添加到所有实例的GCE标记
*
`cluster_name(str)`
- 要创建的DataProc集群的名称。(模板)
*
`project_id(str)`
- 用于创建集群的Google云项目的ID。(模板)
*
`num_workers(int)`
- 旋转的工人数量
*
`storage_bucket(str)`
- 要使用的存储桶,设置为None允许dataproc为您生成自定义存储桶
*
`init_actions_uris(list[str])`
- 包含数据空间初始化脚本的GCS uri列表
*
`init_action_timeout(str)`
- init_actions_uris中可执行脚本必须完成的时间
*
`元数据(dict)`
- 要添加到所有实例的键值google计算引擎元数据条目的字典
*
`image_version(str)`
- Dataproc集群内的软件版本
*
`属性(dict)`
-性能上的配置文件设置的字典(如火花defaults.conf),见
[
https://cloud.google.com/dataproc/docs/reference/rest/v1/
](
https://cloud.google.com/dataproc/docs/reference/rest/v1/
)
projects.regions.clusters#SoftwareConfig
*
`master_machine_type(str)`
- 计算要用于主节点的引擎机器类型
*
`master_disk_size(int)`
- 主节点的磁盘大小
*
`worker_machine_type(str)`
- 计算要用于工作节点的引擎计算机类型
*
`worker_disk_size(int)`
- 工作节点的磁盘大小
*
`num_preemptible_workers(int)`
- 要旋转的可抢占工作节点数
*
`labels(dict)`
- 要添加到集群的标签的字典
*
`zone(str)`
- 群集所在的区域。(模板)
*
`network_uri(str)`
- 用于机器通信的网络uri,不能用subnetwork_uri指定
*
`subnetwork_uri(str)`
- 无法使用network_uri指定要用于机器通信的子网uri
*
`internal_ip_only(bool)`
- 如果为true,则群集中的所有实例将只具有内部IP地址。这只能为启用子网的网络启用
*
`tags(list[str])`
- 要添加到所有实例的GCE标记
*
**地区**
- 作为'全球'留下,可能在未来变得相关。(模板)
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**service_account**
(str)
- dataproc实例的服务帐户。
*
**service_account_scopes**
(_list __[ __string __]_)
- 要包含的服务帐户范围的URI。
*
**idle_delete_ttl**
(int)
- 群集在保持空闲状态时保持活动状态的最长持续时间。通过此阈值将导致群集被自动删除。持续时间(秒)。
*
**auto_delete_time**
(_datetime.datetime_)
- 自动删除群集的时间。
*
**auto_delete_ttl**
(int)
- 群集的生命周期,群集将在此持续时间结束时自动删除。持续时间(秒)。(如果设置了auto_delete_time,则将忽略此参数)
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`service_account(str)`
- dataproc实例的服务帐户。
*
`service_account_scopes(list[str])`
- 要包含的服务帐户范围的URI。
*
`idle_delete_ttl(int)`
- 群集在保持空闲状态时保持活动状态的最长持续时间。通过此阈值将导致群集被自动删除。持续时间(秒)。
*
`auto_delete_time(datetime.datetime)`
- 自动删除群集的时间。
*
`auto_delete_ttl(int)`
- 群集的生命周期,群集将在此持续时间结束时自动删除。持续时间(秒)。(如果设置了auto_delete_time,则将忽略此参数)
##### DataprocClusterScaleOperator
...
...
@@ -1885,14 +1885,14 @@ task_id ='dataproc_scale',project_id ='my-project',cluster_name ='cluster-1'
参数:
*
**cluster_name**
(str)
- 要扩展的集群的名称。(模板)
*
**project_id**
(str)
- 群集运行的Google云项目的ID。(模板)
*
**region**
(str)
- 数据通路簇的区域。(模板)
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**num_workers**
(int)
- 新的工人数量
*
**num_preemptible_workers**
(int)
- 新的可抢占工人数量
*
**graceful_decommission_timeout**
(str)
- 优雅的YARN decomissioning超时。最大值为1d
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`cluster_name(str)`
- 要扩展的集群的名称。(模板)
*
`project_id(str)`
- 群集运行的Google云项目的ID。(模板)
*
`region(str)`
- 数据通路簇的区域。(模板)
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`num_workers(int)`
- 新的工人数量
*
`num_preemptible_workers(int)`
- 新的可抢占工人数量
*
`graceful_decommission_timeout(str)`
- 优雅的YARN decomissioning超时。最大值为1d
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
##### DataprocClusterDeleteOperator
...
...
@@ -1907,11 +1907,11 @@ class airflow.contrib.operators.dataproc_operator.DataprocClusterDeleteOperator
参数:
*
**cluster_name**
(str)
- 要创建的集群的名称。(模板)
*
**project_id**
(str)
- 群集运行的Google云项目的ID。(模板)
*
**region**
(str)
- 保留为“全局”,将来可能会变得相关。(模板)
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`cluster_name(str)`
- 要创建的集群的名称。(模板)
*
`project_id(str)`
- 群集运行的Google云项目的ID。(模板)
*
`region(str)`
- 保留为“全局”,将来可能会变得相关。(模板)
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
##### DataProcPigOperator
...
...
@@ -1956,16 +1956,16 @@ class airflow.contrib.operators.dataproc_operator.DataProcPigOperator(query =
参数:
*
**query**
(str)
- 对查询文件的查询或引用(pg或pig扩展)。(模板)
*
**query_uri**
(str)
- 云存储上的猪脚本的uri。
*
**variables**
(dict)
- 查询的命名参数的映射。(模板)
*
**job_name**
(str)
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
**cluster_name**
(str)
- DataProc集群的名称。(模板)
*
**dataproc_pig_properties**
(dict)
- Pig属性的映射。非常适合放入默认参数
*
**dataproc_pig_jars**
(list)
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**region**
(str)
- 创建数据加载集群的指定区域。
*
`query(str)`
- 对查询文件的查询或引用(pg或pig扩展)。(模板)
*
`query_uri(str)`
- 云存储上的猪脚本的uri。
*
`variables(dict)`
- 查询的命名参数的映射。(模板)
*
`job_name(str)`
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
`cluster_name(str)`
- DataProc集群的名称。(模板)
*
`dataproc_pig_properties(dict)`
- Pig属性的映射。非常适合放入默认参数
*
`dataproc_pig_jars(list)`
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`region(str)`
- 创建数据加载集群的指定区域。
##### DataProcHiveOperator
...
...
@@ -1980,16 +1980,16 @@ class airflow.contrib.operators.dataproc_operator.DataProcHiveOperator(query =
参数:
*
**query**
(str)
- 查询或对查询文件的引用(q扩展名)。
*
**query_uri**
(str)
- 云存储上的hive脚本的uri。
*
**variables**
(dict)
- 查询的命名参数的映射。
*
**job_name**
(str)
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。
*
**cluster_name**
(str)
- DataProc集群的名称。
*
**dataproc_hive_properties**
(dict)
- Pig属性的映射。非常适合放入默认参数
*
**dataproc_hive_jars**
(list)
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**region**
(str)
- 创建数据加载集群的指定区域。
*
`query(str)`
- 查询或对查询文件的引用(q扩展名)。
*
`query_uri(str)`
- 云存储上的hive脚本的uri。
*
`variables(dict)`
- 查询的命名参数的映射。
*
`job_name(str)`
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。
*
`cluster_name(str)`
- DataProc集群的名称。
*
`dataproc_hive_properties(dict)`
- Pig属性的映射。非常适合放入默认参数
*
`dataproc_hive_jars(list)`
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`region(str)`
- 创建数据加载集群的指定区域。
##### DataProcSparkSqlOperator
...
...
@@ -2004,16 +2004,16 @@ class airflow.contrib.operators.dataproc_operator.DataProcSparkSqlOperator(que
参数:
*
**query**
(str)
- 查询或对查询文件的引用(q扩展名)。(模板)
*
**query_uri**
(str)
- 云存储上的一个spark sql脚本的uri。
*
**variables**
(dict)
- 查询的命名参数的映射。(模板)
*
**job_name**
(str)
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
**cluster_name**
(str)
- DataProc集群的名称。(模板)
*
**dataproc_spark_properties**
(dict)
- Pig属性的映射。非常适合放入默认参数
*
**dataproc_spark_jars**
(list)
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**region**
(str)
- 创建数据加载集群的指定区域。
*
`query(str)`
- 查询或对查询文件的引用(q扩展名)。(模板)
*
`query_uri(str)`
- 云存储上的一个spark sql脚本的uri。
*
`variables(dict)`
- 查询的命名参数的映射。(模板)
*
`job_name(str)`
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
`cluster_name(str)`
- DataProc集群的名称。(模板)
*
`dataproc_spark_properties(dict)`
- Pig属性的映射。非常适合放入默认参数
*
`dataproc_spark_jars(list)`
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`region(str)`
- 创建数据加载集群的指定区域。
##### DataProcSparkOperator
...
...
@@ -2028,18 +2028,18 @@ class airflow.contrib.operators.dataproc_operator.DataProcSparkOperator(main_j
参数:
*
**main_jar**
(str)
- 在云存储上配置的作业jar的URI。(使用this或main_class,而不是两者一起)。
*
**main_class**
(str)
- 作业类的名称。(使用this或main_jar,而不是两者一起)。
*
**arguments**
(list)
- 作业的参数。(模板)
*
**archives**
(list)
- 将在工作目录中解压缩的已归档文件列表。应存储在云存储中。
*
**files**
(list)
- 要复制到工作目录的文件列表
*
**job_name**
(str)
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
**cluster_name**
(str)
- DataProc集群的名称。(模板)
*
**dataproc_spark_properties**
(dict)
- Pig属性的映射。非常适合放入默认参数
*
**dataproc_spark_jars**
(list)
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**region**
(str)
- 创建数据加载集群的指定区域。
*
`main_jar(str)`
- 在云存储上配置的作业jar的URI。(使用this或main_class,而不是两者一起)。
*
`main_class(str)`
- 作业类的名称。(使用this或main_jar,而不是两者一起)。
*
`arguments(list)`
- 作业的参数。(模板)
*
`archives(list)`
- 将在工作目录中解压缩的已归档文件列表。应存储在云存储中。
*
`files(list)`
- 要复制到工作目录的文件列表
*
`job_name(str)`
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
`cluster_name(str)`
- DataProc集群的名称。(模板)
*
`dataproc_spark_properties(dict)`
- Pig属性的映射。非常适合放入默认参数
*
`dataproc_spark_jars(list)`
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`region(str)`
- 创建数据加载集群的指定区域。
##### DataProcHadoopOperator
...
...
@@ -2054,18 +2054,18 @@ class airflow.contrib.operators.dataproc_operator.DataProcHadoopOperator(main_
参数:
*
**main_jar**
(str)
- 在云存储上配置的作业jar的URI。(使用this或main_class,而不是两者一起)。
*
**main_class**
(str)
- 作业类的名称。(使用this或main_jar,而不是两者一起)。
*
**arguments**
(list)
- 作业的参数。(模板)
*
**archives**
(list)
- 将在工作目录中解压缩的已归档文件列表。应存储在云存储中。
*
**files**
(list)
- 要复制到工作目录的文件列表
*
**job_name**
(str)
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
**cluster_name**
(str)
- DataProc集群的名称。(模板)
*
**dataproc_hadoop_properties**
(dict)
- Pig属性的映射。非常适合放入默认参数
*
**dataproc_hadoop_jars**
(list)
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**region**
(str)
- 创建数据加载集群的指定区域。
*
`main_jar(str)`
- 在云存储上配置的作业jar的URI。(使用this或main_class,而不是两者一起)。
*
`main_class(str)`
- 作业类的名称。(使用this或main_jar,而不是两者一起)。
*
`arguments(list)`
- 作业的参数。(模板)
*
`archives(list)`
- 将在工作目录中解压缩的已归档文件列表。应存储在云存储中。
*
`files(list)`
- 要复制到工作目录的文件列表
*
`job_name(str)`
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
`cluster_name(str)`
- DataProc集群的名称。(模板)
*
`dataproc_hadoop_properties(dict)`
- Pig属性的映射。非常适合放入默认参数
*
`dataproc_hadoop_jars(list)`
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`region(str)`
- 创建数据加载集群的指定区域。
##### DataProcPySparkOperator
...
...
@@ -2080,18 +2080,18 @@ class airflow.contrib.operators.dataproc_operator.DataProcPySparkOperator(main
参数:
*
**main**
(str)
- [必需]用作驱动程序的主Python文件的Hadoop兼容文件系统(HCFS)URI。必须是.py文件。
*
**arguments**
(list)
- 作业的参数。(模板)
*
**archives**
(list)
- 将在工作目录中解压缩的已归档文件列表。应存储在云存储中。
*
**files**
(list)
- 要复制到工作目录的文件列表
*
**pyfiles**
(list)
- 要传递给PySpark框架的Python文件列表。支持的文件类型:.py,.egg和.zip
*
**job_name**
(str)
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
**cluster_name**
(str)
- DataProc集群的名称。
*
**dataproc_pyspark_properties**
(dict)
- Pig属性的映射。非常适合放入默认参数
*
**dataproc_pyspark_jars**
(list)
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**region**
(str)
- 创建数据加载集群的指定区域。
*
`main(str)`
- [必需]用作驱动程序的主Python文件的Hadoop兼容文件系统(HCFS)URI。必须是.py文件。
*
`arguments(list)`
- 作业的参数。(模板)
*
`archives(list)`
- 将在工作目录中解压缩的已归档文件列表。应存储在云存储中。
*
`files(list)`
- 要复制到工作目录的文件列表
*
`pyfiles(list)`
- 要传递给PySpark框架的Python文件列表。支持的文件类型:.py,.egg和.zip
*
`job_name(str)`
- DataProc集群中使用的作业名称。默认情况下,此名称是附加执行数据的task_id,但可以进行模板化。该名称将始终附加一个随机数,以避免名称冲突。(模板)
*
`cluster_name(str)`
- DataProc集群的名称。
*
`dataproc_pyspark_properties(dict)`
- Pig属性的映射。非常适合放入默认参数
*
`dataproc_pyspark_jars(list)`
- 在云存储中配置的jars的URI(例如:用于UDF和lib),非常适合放入默认参数。
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`region(str)`
- 创建数据加载集群的指定区域。
##### DataprocWorkflowTemplateInstantiateOperator
...
...
@@ -2110,11 +2110,11 @@ class airflow.contrib.operators.dataproc_operator.DataprocWorkflowTemplateInstan
参数:
*
**template_id**
(str)
- 模板的id。(模板)
*
**project_id**
(str)
- 模板运行所在的Google云项目的ID
*
**region**
(str)
- 保留为“全局”,将来可能会变得相关
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`template_id(str)`
- 模板的id。(模板)
*
`project_id(str)`
- 模板运行所在的Google云项目的ID
*
`region(str)`
- 保留为“全局”,将来可能会变得相关
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
##### DataprocWorkflowTemplateInstantiateInlineOperator
...
...
@@ -2133,11 +2133,11 @@ class airflow.contrib.operators.dataproc_operator.DataprocWorkflowTemplateInstan
参数:
*
**template**
(_map_)
- 模板内容。(模板)
*
**project_id**
(str)
- 模板运行所在的Google云项目的ID
*
**region**
(str)
- 保留为“全局”,将来可能会变得相关
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`template(map)`
- 模板内容。(模板)
*
`project_id(str)`
- 模板运行所在的Google云项目的ID
*
`region(str)`
- 保留为“全局”,将来可能会变得相关
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
### 云数据存储区
...
...
@@ -2159,16 +2159,16 @@ class airflow.contrib.operators.datastore_export_operator.DatastoreExportOperato
参数:
*
**bucket**
(str)
- 要备份数据的云存储桶的名称
*
**namespace**
(str)
- 指定云存储桶中用于备份数据的可选命名空间路径。如果GCS中不存在此命名空间,则将创建该命名空间。
*
**datastore_conn_id**
(str)
- 要使用的数据存储区连接ID的名称
*
**cloud_storage_conn_id**
(str)
- 强制写入备份的云存储连接ID的名称
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**entity_filter**
(dict)
- 导出中包含项目中哪些数据的说明,请参阅
[
https://cloud.google.com/datastore/docs/reference/rest/Shared.Types/EntityFilter
](
https://cloud.google.com/datastore/docs/reference/rest/Shared.Types/EntityFilter
)
*
**labels**
(dict)
- 客户端分配的云存储标签
*
**polling_interval_in_seconds**
(int)
- 再次轮询执行状态之前等待的秒数
*
**overwrite_existing**
(bool)
- 如果存储桶+命名空间不为空,则在导出之前将清空它。这样可以覆盖现有备份。
*
**xcom_push**
(bool)
- 将操作名称推送到xcom以供参考
*
`bucket(str)`
- 要备份数据的云存储桶的名称
*
`namespace(str)`
- 指定云存储桶中用于备份数据的可选命名空间路径。如果GCS中不存在此命名空间,则将创建该命名空间。
*
`datastore_conn_id(str)`
- 要使用的数据存储区连接ID的名称
*
`cloud_storage_conn_id(str)`
- 强制写入备份的云存储连接ID的名称
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`entity_filter(dict)`
- 导出中包含项目中哪些数据的说明,请参阅
[
https://cloud.google.com/datastore/docs/reference/rest/Shared.Types/EntityFilter
](
https://cloud.google.com/datastore/docs/reference/rest/Shared.Types/EntityFilter
)
*
`labels(dict)`
- 客户端分配的云存储标签
*
`polling_interval_in_seconds(int)`
- 再次轮询执行状态之前等待的秒数
*
`overwrite_existing(bool)`
- 如果存储桶+命名空间不为空,则在导出之前将清空它。这样可以覆盖现有备份。
*
`xcom_push(bool)`
- 将操作名称推送到xcom以供参考
##### DatastoreImportOperator
...
...
@@ -2183,15 +2183,15 @@ class airflow.contrib.operators.datastore_import_operator.DatastoreImportOperato
参数:
*
**bucket**
(str)
- 云存储中用于存储数据的容器
*
**file**
(str)
- 指定云存储桶中备份元数据文件的路径。它应该具有扩展名.overall_export_metadata
*
**namespace**
(str)
- 指定云存储桶中备份元数据文件的可选命名空间。
*
**entity_filter**
(dict)
- 导出中包含项目中哪些数据的说明,请参阅
[
https://cloud.google.com/datastore/docs/reference/rest/Shared.Types/EntityFilter
](
https://cloud.google.com/datastore/docs/reference/rest/Shared.Types/EntityFilter
)
*
**labels**
(dict)
- 客户端分配的云存储标签
*
**datastore_conn_id**
(str)
- 要使用的连接ID的名称
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**polling_interval_in_seconds**
(int)
- 再次轮询执行状态之前等待的秒数
*
**xcom_push**
(bool)
- 将操作名称推送到xcom以供参考
*
`bucket(str)`
- 云存储中用于存储数据的容器
*
`file(str)`
- 指定云存储桶中备份元数据文件的路径。它应该具有扩展名.overall_export_metadata
*
`namespace(str)`
- 指定云存储桶中备份元数据文件的可选命名空间。
*
`entity_filter(dict)`
- 导出中包含项目中哪些数据的说明,请参阅
[
https://cloud.google.com/datastore/docs/reference/rest/Shared.Types/EntityFilter
](
https://cloud.google.com/datastore/docs/reference/rest/Shared.Types/EntityFilter
)
*
`labels(dict)`
- 客户端分配的云存储标签
*
`datastore_conn_id(str)`
- 要使用的连接ID的名称
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`polling_interval_in_seconds(int)`
- 再次轮询执行状态之前等待的秒数
*
`xcom_push(bool)`
- 将操作名称推送到xcom以供参考
#### DatastoreHook
...
...
@@ -2367,19 +2367,19 @@ class airflow.contrib.operators.mlengine_operator.MLEngineBatchPredictionOperato
参数:
*
**project_id**
(str)
- 提交预测作业的Google Cloud项目名称。(模板)
*
**job_id**
(str)
- Google Cloud ML Engine上预测作业的唯一ID。(模板)
*
**data_format**
(str)
- 输入数据的格式。如果未提供或者不是[“TEXT”,“TF_RECORD”,“TF_RECORD_GZIP”]之一,它将默认为“DATA_FORMAT_UNSPECIFIED”。
*
**input_paths**
(_字符串列表_)
- 批量预测的输入数据的GCS路径列表。接受通配符运算符
[
*
](
28
)
,但仅限于结尾处。(模板)
*
**output_path**
(str)
- 写入预测结果的GCS路径。(模板)
*
**region**
(str)
- 用于运行预测作业的Google Compute Engine区域。(模板化)
*
**model_name**
(str)
- 用于预测的Google Cloud ML Engine模型。如果未提供version_name,则将使用此模型的默认版本。如果提供了version_name,则不应为None。如果提供uri,则应为None。(模板)
*
**version_name**
(str)
- 用于预测的Google Cloud ML Engine模型版本。如果提供uri,则应为None。(模板)
*
**uri**
(str)
- 用于预测的已保存模型的GCS路径。如果提供了model_name,则应为None。它应该是指向张量流SavedModel的GCS路径。(模板)
*
**max_worker_count**
(int)
- 用于并行处理的最大worker数。如果未指定,则默认为10。
*
**runtime_version**
(str)
- 用于批量预测的Google Cloud ML Engine运行时版本。
*
**gcp_conn_id**
(str)
- 用于连接到Google Cloud Platform的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用doamin范围的委派。
*
`project_id(str)`
- 提交预测作业的Google Cloud项目名称。(模板)
*
`job_id(str)`
- Google Cloud ML Engine上预测作业的唯一ID。(模板)
*
`data_format(str)`
- 输入数据的格式。如果未提供或者不是[“TEXT”,“TF_RECORD”,“TF_RECORD_GZIP”]之一,它将默认为“DATA_FORMAT_UNSPECIFIED”。
*
`input_paths(list[str])`
- 批量预测的输入数据的GCS路径列表。接受通配符运算符
[
*
](
28
)
,但仅限于结尾处。(模板)
*
`output_path(str)`
- 写入预测结果的GCS路径。(模板)
*
`region(str)`
- 用于运行预测作业的Google Compute Engine区域。(模板化)
*
`model_name(str)`
- 用于预测的Google Cloud ML Engine模型。如果未提供version_name,则将使用此模型的默认版本。如果提供了version_name,则不应为None。如果提供uri,则应为None。(模板)
*
`version_name(str)`
- 用于预测的Google Cloud ML Engine模型版本。如果提供uri,则应为None。(模板)
*
`uri(str)`
- 用于预测的已保存模型的GCS路径。如果提供了model_name,则应为None。它应该是指向张量流SavedModel的GCS路径。(模板)
*
`max_worker_count(int)`
- 用于并行处理的最大worker数。如果未指定,则默认为10。
*
`runtime_version(str)`
- 用于批量预测的Google Cloud ML Engine运行时版本。
*
`gcp_conn_id(str)`
- 用于连接到Google Cloud Platform的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用doamin范围的委派。
```
py
...
...
@@ -2400,8 +2400,8 @@ class airflow.contrib.operators.mlengine_operator.MLEngineModelOperator(projec
参数:
*
**project_id**
(str)
- MLEngine模型所属的Google Cloud项目名称。(模板)
*
**型号**
(_字典_)
-
*
`project_id(str)`
- MLEngine模型所属的Google Cloud项目名称。(模板)
*
`型号(dict)`
-
包含有关模型信息的字典。如果`操作`是`create`,则`model`参数应包含有关此模型的所有信息,例如`name`。
...
...
@@ -2413,8 +2413,8 @@ class airflow.contrib.operators.mlengine_operator.MLEngineModelOperator(projec
* `create`:创建`model`参数提供的新模型。
* `get`:获取在模型中指定名称的特定`模型`。
*
**gcp_conn_id**
(str)
- 获取连接信息时使用的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`gcp_conn_id(str)`
- 获取连接信息时使用的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
##### MLEngineTrainingOperator
...
...
@@ -2429,19 +2429,19 @@ class airflow.contrib.operators.mlengine_operator.MLEngineTrainingOperator(pro
参数:
*
**project_id**
(str)
- 应在其中运行MLEngine培训作业的Google Cloud项目名称(模板化)。
*
**job_id**
(str)
- 提交的Google MLEngine培训作业的唯一模板化ID。(模板)
*
**package_uris**
(str)
- MLEngine培训作业的包位置列表,其中应包括主要培训计划+任何其他依赖项。(模板)
*
**training_python_module**
(str)
- 安装'package_uris'软件包后,在MLEngine培训作业中运行的Python模块名称。(模板)
*
**training_args**
(str)
- 传递给MLEngine训练程序的模板化命令行参数列表。(模板)
*
**region**
(str)
- 用于运行MLEngine培训作业的Google Compute Engine区域(模板化)。
*
**scale_tier**
(str)
- MLEngine培训作业的资源层。(模板)
*
**runtime_version**
(str)
- 用于培训的Google Cloud ML运行时版本。(模板)
*
**python_version**
(str)
- 训练中使用的Python版本。(模板)
*
**job_dir**
(str)
- 用于存储培训输出和培训所需的其他数据的Google云端存储路径。(模板)
*
**gcp_conn_id**
(str)
- 获取连接信息时使用的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**mode**
(str)
- 可以是'DRY_RUN'/'CLOUD'之一。在“DRY_RUN”模式下,不会启动真正的培训作业,但会打印出MLEngine培训作业请求。在“CLOUD”模式下,将发出真正的MLEngine培训作业创建请求。
*
`project_id(str)`
- 应在其中运行MLEngine培训作业的Google Cloud项目名称(模板化)。
*
`job_id(str)`
- 提交的Google MLEngine培训作业的唯一模板化ID。(模板)
*
`package_uris(str)`
- MLEngine培训作业的包位置列表,其中应包括主要培训计划+任何其他依赖项。(模板)
*
`training_python_module(str)`
- 安装'package_uris'软件包后,在MLEngine培训作业中运行的Python模块名称。(模板)
*
`training_args(str)`
- 传递给MLEngine训练程序的模板化命令行参数列表。(模板)
*
`region(str)`
- 用于运行MLEngine培训作业的Google Compute Engine区域(模板化)。
*
`scale_tier(str)`
- MLEngine培训作业的资源层。(模板)
*
`runtime_version(str)`
- 用于培训的Google Cloud ML运行时版本。(模板)
*
`python_version(str)`
- 训练中使用的Python版本。(模板)
*
`job_dir(str)`
- 用于存储培训输出和培训所需的其他数据的Google云端存储路径。(模板)
*
`gcp_conn_id(str)`
- 获取连接信息时使用的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`mode(str)`
- 可以是'DRY_RUN'/'CLOUD'之一。在“DRY_RUN”模式下,不会启动真正的培训作业,但会打印出MLEngine培训作业请求。在“CLOUD”模式下,将发出真正的MLEngine培训作业创建请求。
##### MLEngineVersionOperator
...
...
@@ -2456,11 +2456,11 @@ class airflow.contrib.operators.mlengine_operator.MLEngineVersionOperator(proj
参数:
*
**project_id**
(str)
- MLEngine模型所属的Google Cloud项目名称。
*
**model_name**
(str)
- 版本所属的Google Cloud ML Engine模型的名称。(模板)
*
**version_name**
(str)
- 用于正在操作的版本的名称。如果没有人及
`版本`
的说法是没有或不具备的值
`名称`
键,那么这将是有效载荷中用于填充
`名称`
键。(模板)
*
**version**
(dict)
- 包含版本信息的字典。如果
`操作`
是
`create`
,则
`version`
应包含有关此版本的所有信息,例如name和deploymentUrl。如果
`操作`
是
`get`
或
`delete`
,则
`version`
参数应包含
`版本`
的
`名称`
。如果是None,则唯一可能的
`操作`
是
`list`
。(模板)
*
**操作**
(str)
-
*
`project_id(str)`
- MLEngine模型所属的Google Cloud项目名称。
*
`model_name(str)`
- 版本所属的Google Cloud ML Engine模型的名称。(模板)
*
`version_name(str)`
- 用于正在操作的版本的名称。如果没有人及
`版本`
的说法是没有或不具备的值
`名称`
键,那么这将是有效载荷中用于填充
`名称`
键。(模板)
*
`version(dict)`
- 包含版本信息的字典。如果
`操作`
是
`create`
,则
`version`
应包含有关此版本的所有信息,例如name和deploymentUrl。如果
`操作`
是
`get`
或
`delete`
,则
`version`
参数应包含
`版本`
的
`名称`
。如果是None,则唯一可能的
`操作`
是
`list`
。(模板)
*
`操作(str)`
-
执行的操作。可用的操作是:
...
...
@@ -2468,8 +2468,8 @@ class airflow.contrib.operators.mlengine_operator.MLEngineVersionOperator(proj
* `get`:获取`model_name`指定的`模型中`特定版本的完整信息。应在`version`参数中指定版本的名称。
* `list`:列出`model_name`指定的`模型的`所有可用版本。
* `delete`:从`model_name`指定的`模型中`删除`version`参数中指定的`版本`。应在`version`参数中指定版本的名称。
*
**gcp_conn_id**
(str)
- 获取连接信息时使用的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`gcp_conn_id(str)`
- 获取连接信息时使用的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
#### Cloud ML Engine Hook
...
...
@@ -2490,8 +2490,8 @@ create_job(project_id,job,use_existing_job_fn = None)
参数:
*
**project_id**
(str)
- 将在其中启动MLEngine作业的Google Cloud项目ID。
*
**工作**
(_字典_)
-
*
`project_id(str)`
- 将在其中启动MLEngine作业的Google Cloud项目ID。
*
`工作(dict)`
-
应该提供给MLEngine API的MLEngine Job对象,例如:
...
...
@@ -2506,7 +2506,7 @@ create_job(project_id,job,use_existing_job_fn = None)
```
*
**use_existing_job_fn**
(_function_)
- 如果已存在具有相同job_id的MLEngine作业,则此方法(如果提供)将决定是否应使用此现有作业,继续等待它完成并返回作业对象。它应该接受MLEngine作业对象,并返回一个布尔值,指示是否可以重用现有作业。如果未提供“use_existing_job_fn”,我们默认重用现有的MLEngine作业。
*
`use_existing_job_fn(function)`
- 如果已存在具有相同job_id的MLEngine作业,则此方法(如果提供)将决定是否应使用此现有作业,继续等待它完成并返回作业对象。它应该接受MLEngine作业对象,并返回一个布尔值,指示是否可以重用现有作业。如果未提供“use_existing_job_fn”,我们默认重用现有的MLEngine作业。
返回:如果作业成功到达终端状态(可能是FAILED或CANCELED状态),则为MLEngine作业对象。
...
...
@@ -2579,12 +2579,12 @@ class airflow.contrib.operators.file_to_gcs.FileToGoogleCloudStorageOperator(s
参数:
*
**src**
(str)
- 本地文件的路径。(模板)
*
**dst**
(str)
- 指定存储桶中的目标路径。(模板)
*
**bucket**
(str)
- 要上传的存储桶。(模板)
*
**google_cloud_storage_conn_id**
(str)
- 要上传的Airflow连接ID
*
**mime_type**
(str)
- mime类型字符串
*
**delegate_to**
(str)
- 模拟的帐户(如果有)
*
`src(str)`
- 本地文件的路径。(模板)
*
`dst(str)`
- 指定存储桶中的目标路径。(模板)
*
`bucket(str)`
- 要上传的存储桶。(模板)
*
`google_cloud_storage_conn_id(str)`
- 要上传的Airflow连接ID
*
`mime_type(str)`
- mime类型字符串
*
`delegate_to(str)`
- 模拟的帐户(如果有)
```
py
...
...
@@ -2609,8 +2609,8 @@ class airflow.contrib.operators.gcs_operator.GoogleCloudStorageCreateBucketOpera
参数:
*
**bucket_name**
(str)
- 存储桶的名称。(模板)
*
**storage_class**
(str)
-
*
`bucket_name(str)`
- 存储桶的名称。(模板)
*
`storage_class(str)`
-
这定义了存储桶中对象的存储方式,并确定了SLA和存储成本(模板化)。价值包括
...
...
@@ -2622,7 +2622,7 @@ class airflow.contrib.operators.gcs_operator.GoogleCloudStorageCreateBucketOpera
如果在创建存储桶时未指定此值,则默认为STANDARD。
*
**位置**
(str)
-
*
`位置(str)`
-
水桶的位置。(模板化)存储桶中对象的对象数据驻留在此区域内的物理存储中。默认为美国。
...
...
@@ -2630,10 +2630,10 @@ class airflow.contrib.operators.gcs_operator.GoogleCloudStorageCreateBucketOpera
[https://developers.google.com/storage/docs/bucket-locations](https://developers.google.com/storage/docs/bucket-locations)
*
**project_id**
(str)
- GCP项目的ID。(模板)
*
**labels**
(dict)
- 用户提供的键/值对标签。
*
**google_cloud_storage_conn_id**
(str)
- 连接到Google云端存储时使用的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`project_id(str)`
- GCP项目的ID。(模板)
*
`labels(dict)`
- 用户提供的键/值对标签。
*
`google_cloud_storage_conn_id(str)`
- 连接到Google云端存储时使用的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
```
py
...
...
@@ -2666,12 +2666,12 @@ class airflow.contrib.operators.gcs_download_operator.GoogleCloudStorageDownload
参数:
*
**bucket**
(str)
- 对象所在的Google云存储桶。(模板)
*
**object**
(str)
- 要在Google云存储桶中下载的对象的名称。(模板)
*
**filename**
(str)
- 应将文件下载到的本地文件系统(正在执行操作符的位置)上的文件路径。(模板化)如果未传递文件名,则下载的数据将不会存储在本地文件系统中。
*
**store_to_xcom_key**
(str)
- 如果设置了此参数,操作员将使用此参数中设置的键将下载文件的内容推送到XCom。如果未设置,则下载的数据不会被推送到XCom。(模板)
*
**google_cloud_storage_conn_id**
(str)
- 连接到Google云端存储时使用的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`bucket(str)`
- 对象所在的Google云存储桶。(模板)
*
`object(str)`
- 要在Google云存储桶中下载的对象的名称。(模板)
*
`filename(str)`
- 应将文件下载到的本地文件系统(正在执行操作符的位置)上的文件路径。(模板化)如果未传递文件名,则下载的数据将不会存储在本地文件系统中。
*
`store_to_xcom_key(str)`
- 如果设置了此参数,操作员将使用此参数中设置的键将下载文件的内容推送到XCom。如果未设置,则下载的数据不会被推送到XCom。(模板)
*
`google_cloud_storage_conn_id(str)`
- 连接到Google云端存储时使用的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
##### GoogleCloudStorageListOperator
...
...
@@ -2692,11 +2692,11 @@ class airflow.contrib.operators.gcslistoperator.GoogleCloudStorageListOperator
参数:
*
**bucket**
(str)
- 用于查找对象的Google云存储桶。(模板)
*
**prefix**
(str)
- 前缀字符串,用于过滤名称以此前缀开头的对象。(模板)
*
**delimiter**
(str)
- 要过滤对象的分隔符。(模板化)例如,要列出GCS目录中的CSV文件,您可以使用delimiter ='。csv'。
*
**google_cloud_storage_conn_id**
(str)
- 连接到Google云端存储时使用的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`bucket(str)`
- 用于查找对象的Google云存储桶。(模板)
*
`prefix(str)`
- 前缀字符串,用于过滤名称以此前缀开头的对象。(模板)
*
`delimiter(str)`
- 要过滤对象的分隔符。(模板化)例如,要列出GCS目录中的CSV文件,您可以使用delimiter ='。csv'。
*
`google_cloud_storage_conn_id(str)`
- 连接到Google云端存储时使用的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
```
py
...
...
@@ -2730,31 +2730,31 @@ class airflow.contrib.operators.gcs_to_bq.GoogleCloudStorageToBigQueryOperator
参数:
*
**bucket**
(str)
- 要加载的桶。(模板)
*
`bucket(str)`
- 要加载的桶。(模板)
*
**source_objects**
- 要加载的Google云存储URI列表。(模板化)如果source_format是'DATASTORE_BACKUP',则列表必须只包含一个URI。
*
**destination_project_dataset_table**
(str)
- 用于加载数据的虚线(
<
project
>
。)
<
dataset
>
。
<
table
>
BigQuery表。如果未包含
<
project
>
,则项目将是连接json中定义的项目。(模板)
*
**schema_fields**
(list)
- 如果设置,则此处定义的架构字段列表:
[
https
](
https://cloud.google.com/bigquery/docs/reference/v2/jobs
)
:
**//cloud.google.com/bigquery/docs/reference/v2/jobs#configuration.load**
当source_format为'DATASTORE_BACKUP'时,不应设置。
*
`destination_project_dataset_table(str)`
- 用于加载数据的虚线(
<
project
>
。)
<
dataset
>
。
<
table
>
BigQuery表。如果未包含
<
project
>
,则项目将是连接json中定义的项目。(模板)
*
`schema_fields(list)`
- 如果设置,则此处定义的架构字段列表:
[
https
](
https://cloud.google.com/bigquery/docs/reference/v2/jobs
)
:
**//cloud.google.com/bigquery/docs/reference/v2/jobs#configuration.load**
当source_format为'DATASTORE_BACKUP'时,不应设置。
*
**schema_object**
- 如果设置,则指向包含表的架构的.json文件的GCS对象路径。(模板)
*
**schema_object**
- 字符串
*
**source_format**
(str)
- 要导出的文件格式。
*
**compression**
(str)
- [可选]数据源的压缩类型。可能的值包括GZIP和NONE。默认值为NONE。Google Cloud Bigtable,Google Cloud Datastore备份和Avro格式会忽略此设置。
*
**create_disposition**
(str)
- 如果表不存在,则创建处置。
*
**skip_leading_rows**
(int)
- 从CSV加载时要跳过的行数。
*
**write_disposition**
(str)
- 表已存在时的写处置。
*
**field_delimiter**
(str)
- 从CSV加载时使用的分隔符。
*
**max_bad_records**
(int)
- BigQuery在运行作业时可以忽略的最大错误记录数。
*
**quote_character**
(str)
- 用于引用CSV文件中数据部分的值。
*
**ignore_unknown_values**
(bool)
- [可选]指示BigQuery是否应允许表模式中未表示的额外值。如果为true,则忽略额外值。如果为false,则将具有额外列的记录视为错误记录,如果错误记录太多,则在作业结果中返回无效错误。
*
**allow_quoted_newlines**
(bool)
- 是否允许引用的换行符(true)或不允许(false)。
*
**allow_jagged_rows**
(bool)
- 接受缺少尾随可选列的行。缺失值被视为空值。如果为false,则缺少尾随列的记录将被视为错误记录,如果错误记录太多,则会在作业结果中返回无效错误。仅适用于CSV,忽略其他格式。
*
**max_id_key**
(str)
- 如果设置,则是BigQuery表中要加载的列的名称。在加载发生后,Thsi将用于从BigQuery中选择MAX值。结果将由execute()命令返回,该命令又存储在XCom中供将来的操作员使用。这对增量加载很有帮助 - 在将来的执行过程中,您可以从最大ID中获取。
*
**bigquery_conn_id**
(str)
- 对特定BigQuery挂钩的引用。
*
**google_cloud_storage_conn_id**
(str)
- 对特定Google云存储挂钩的引用。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
**schema_update_options**
(list)
- 允许更新目标表的模式作为加载作业的副作用。
*
**src_fmt_configs**
(dict)
- 配置特定于源格式的可选字段
*
**external_table**
(bool)
- 用于指定目标表是否应为BigQuery外部表的标志。默认值为False。
*
**time_partitioning**
(dict)
- 配置可选的时间分区字段,即按API规范按字段,类型和到期分区。请注意,“field”在dataset.table $ partition的并发中不可用。
*
`source_format(str)`
- 要导出的文件格式。
*
`compression(str)`
- [可选]数据源的压缩类型。可能的值包括GZIP和NONE。默认值为NONE。Google Cloud Bigtable,Google Cloud Datastore备份和Avro格式会忽略此设置。
*
`create_disposition(str)`
- 如果表不存在,则创建处置。
*
`skip_leading_rows(int)`
- 从CSV加载时要跳过的行数。
*
`write_disposition(str)`
- 表已存在时的写处置。
*
`field_delimiter(str)`
- 从CSV加载时使用的分隔符。
*
`max_bad_records(int)`
- BigQuery在运行作业时可以忽略的最大错误记录数。
*
`quote_character(str)`
- 用于引用CSV文件中数据部分的值。
*
`ignore_unknown_values(bool)`
- [可选]指示BigQuery是否应允许表模式中未表示的额外值。如果为true,则忽略额外值。如果为false,则将具有额外列的记录视为错误记录,如果错误记录太多,则在作业结果中返回无效错误。
*
`allow_quoted_newlines(bool)`
- 是否允许引用的换行符(true)或不允许(false)。
*
`allow_jagged_rows(bool)`
- 接受缺少尾随可选列的行。缺失值被视为空值。如果为false,则缺少尾随列的记录将被视为错误记录,如果错误记录太多,则会在作业结果中返回无效错误。仅适用于CSV,忽略其他格式。
*
`max_id_key(str)`
- 如果设置,则是BigQuery表中要加载的列的名称。在加载发生后,Thsi将用于从BigQuery中选择MAX值。结果将由execute()命令返回,该命令又存储在XCom中供将来的操作员使用。这对增量加载很有帮助 - 在将来的执行过程中,您可以从最大ID中获取。
*
`bigquery_conn_id(str)`
- 对特定BigQuery挂钩的引用。
*
`google_cloud_storage_conn_id(str)`
- 对特定Google云存储挂钩的引用。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`schema_update_options(list)`
- 允许更新目标表的模式作为加载作业的副作用。
*
`src_fmt_configs(dict)`
- 配置特定于源格式的可选字段
*
`external_table(bool)`
- 用于指定目标表是否应为BigQuery外部表的标志。默认值为False。
*
`time_partitioning(dict)`
- 配置可选的时间分区字段,即按API规范按字段,类型和到期分区。请注意,“field”在dataset.table $ partition的并发中不可用。
##### GoogleCloudStorageToGoogleCloudStorageOperator
...
...
@@ -2769,8 +2769,8 @@ class airflow.contrib.operators.gcs_to_gcs.GoogleCloudStorageToGoogleCloudStorag
参数:
*
**source_bucket**
(str)
- 对象所在的源Google云存储桶。(模板)
*
**source_object**
(str)
-
*
`source_bucket(str)`
- 对象所在的源Google云存储桶。(模板)
*
`source_object(str)`
-
要在Google云存储分区中复制的对象的源名称。(模板化)如果在此参数中使用通配符:
...
...
@@ -2794,8 +2794,8 @@ class airflow.contrib.operators.gcs_to_gcs.GoogleCloudStorageToGoogleCloudStorag
参数:
*
**google_cloud_storage_conn_id**
(str)
- 连接到Google云端存储时使用的连接ID。
*
**delegate_to**
(str)
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
*
`google_cloud_storage_conn_id(str)`
- 连接到Google云端存储时使用的连接ID。
*
`delegate_to(str)`
- 模拟的帐户(如果有)。为此,发出请求的服务帐户必须启用域范围委派。
```
py
...
...
@@ -2864,9 +2864,9 @@ destination_bucket或destination_object可以省略,在这种情况下使用
参数:
*
**source_bucket**(str)
- 要从中复制的对象的存储桶。
*
**source_object**(str)
- 要复制的对象。
*
**destination_bucket**(str)
- 要复制到的对象的目标。可以省略; 然后使用相同的桶。
*
`source_bucket(str)`
- 要从中复制的对象的存储桶。
*
`source_object(str)`
- 要复制的对象。
*
`destination_bucket(str)`
- 要复制到的对象的目标。可以省略; 然后使用相同的桶。
* **destination_object** - 给定对象的(重命名)路径。可以省略; 然后使用相同的名称。
...
...
@@ -2882,8 +2882,8 @@ create_bucket(bucket_name,storage_class ='MULTI_REGIONAL',location ='US'
参数:
*
**bucket_name**(str)
- 存储桶的名称。
*
**storage_class**(str)
-
*
`bucket_name(str)`
- 存储桶的名称。
*
`storage_class(str)`
-
这定义了存储桶中对象的存储方式,并确定了SLA和存储成本。价值包括
...
...
@@ -2895,7 +2895,7 @@ create_bucket(bucket_name,storage_class ='MULTI_REGIONAL',location ='US'
如果在创建存储桶时未指定此值,则默认为STANDARD。
*
**位置**(str)
-
*
`位置(str)`
-
水桶的位置。存储桶中对象的对象数据驻留在此区域内的物理存储中。默认为美国。
...
...
@@ -2903,8 +2903,8 @@ create_bucket(bucket_name,storage_class ='MULTI_REGIONAL',location ='US'
[https://developers.google.com/storage/docs/bucket-locations](https://developers.google.com/storage/docs/bucket-locations)
*
**project_id**(str)
- GCP项目的ID。
*
**labels**(dict)
- 用户提供的键/值对标签。
*
`project_id(str)`
- GCP项目的ID。
*
`labels(dict)`
- 用户提供的键/值对标签。
返回:如果成功,则返回`id`桶的内容。
...
...
@@ -2916,9 +2916,9 @@ create_bucket(bucket_name,storage_class ='MULTI_REGIONAL',location ='US'
参数:
*
**bucket**(str)
- 对象所在的存储桶的名称
*
**object**(str)
- 要删除的对象的名称
*
**generation**(str)
- 如果存在,则永久删除该代的对象
*
`bucket(str)`
- 对象所在的存储桶的名称
*
`object(str)`
- 要删除的对象的名称
*
`generation(str)`
- 如果存在,则永久删除该代的对象
返回:如果成功则为真
...
...
@@ -2930,9 +2930,9 @@ create_bucket(bucket_name,storage_class ='MULTI_REGIONAL',location ='US'
参数:
*
**bucket**(str)
- 要获取的存储桶。
*
**object**(str)
- 要获取的对象。
*
**filename**(str)
- 如果设置,则应写入文件的本地文件路径。
*
`bucket(str)`
- 要获取的存储桶。
*
`object(str)`
- 要获取的对象。
*
`filename(str)`
- 如果设置,则应写入文件的本地文件路径。
```py
...
...
@@ -2943,8 +2943,8 @@ create_bucket(bucket_name,storage_class ='MULTI_REGIONAL',location ='US'
参数:
*
**bucket**(str)
- 对象所在的Google云存储桶。
*
**object**(str)
- 要在Google云存储分区中检查的对象的名称。
*
`bucket(str)`
- 对象所在的Google云存储桶。
*
`object(str)`
- 要在Google云存储分区中检查的对象的名称。
```py
...
...
@@ -2961,8 +2961,8 @@ get_crc32c(bucket,object)
参数:
*
**bucket**(str)
- 对象所在的Google云存储桶。
*
**object**(str)
- 要在Google云存储分区中检查的对象的名称。
*
`bucket(str)`
- 对象所在的Google云存储桶。
*
`object(str)`
- 要在Google云存储分区中检查的对象的名称。
```py
...
...
@@ -2973,8 +2973,8 @@ get_md5hash(bucket,object)
参数:
*
**bucket**(str)
- 对象所在的Google云存储桶。
*
**object**(str)
- 要在Google云存储分区中检查的对象的名称。
*
`bucket(str)`
- 对象所在的Google云存储桶。
*
`object(str)`
- 要在Google云存储分区中检查的对象的名称。
```py
...
...
@@ -2985,8 +2985,8 @@ get_size(bucket,object)
参数:
*
**bucket**(str)
- 对象所在的Google云存储桶。
*
**object**(str)
- 要在Google云存储分区中检查的对象的名称。
*
`bucket(str)`
- 对象所在的Google云存储桶。
*
`object(str)`
- 要在Google云存储分区中检查的对象的名称。
```py
...
...
@@ -2997,9 +2997,9 @@ is_updated_after(bucket,object,ts)
参数:
*
**bucket**(str)
- 对象所在的Google云存储桶。
*
**object**(str)
- 要在Google云存储分区中检查的对象的名称。
*
**ts**(_datetime_)
- 要检查的时间戳。
*
`bucket(str)`
- 对象所在的Google云存储桶。
*
`object(str)`
- 要在Google云存储分区中检查的对象的名称。
*
`ts(datetime)`
- 要检查的时间戳。
```py
...
...
@@ -3010,11 +3010,11 @@ list(bucket,versions = None,maxResults = None,prefix = None,delimiter
参数:
*
**bucket**(str)
- 存储桶名称
*
**versions**(bool)
- 如果为true,则列出对象的所有版本
*
**maxResults**(_整数_)
- 在单个响应页面中返回的最大项目数
*
**prefix**(str)
- 前缀字符串,用于过滤名称以此前缀开头的对象
*
**delimiter**(str)
- 根据分隔符过滤对象(例如'.csv')
*
`bucket(str)`
- 存储桶名称
*
`versions(bool)`
- 如果为true,则列出对象的所有版本
*
`maxResults(int)`
- 在单个响应页面中返回的最大项目数
*
`prefix(str)`
- 前缀字符串,用于过滤名称以此前缀开头的对象
*
`delimiter(str)`
- 根据分隔符过滤对象(例如'.csv')
返回:与过滤条件匹配的对象名称流
...
...
@@ -3028,9 +3028,9 @@ destination_object可以省略,在这种情况下使用source_object。
参数:
*
**source_bucket**(str)
- 要从中复制的对象的存储桶。
*
**source_object**(str)
- 要复制的对象。
*
**destination_bucket**(str)
- 要复制到的对象的目标。
*
`source_bucket(str)`
- 要从中复制的对象的存储桶。
*
`source_object(str)`
- 要复制的对象。
*
`destination_bucket(str)`
- 要复制到的对象的目标。
* **destination_object** - 给定对象的(重命名)路径。可以省略; 然后使用相同的名称。
...
...
@@ -3042,10 +3042,10 @@ upload(bucket,object,filename,mime_type ='application / octet-stream')
参数:
*
**bucket**(str)
- 要上传的存储桶。
*
**object**(str)
- 上载本地文件时要设置的对象名称。
*
**filename**(str)
- 要上载的文件的本地文件路径。
*
**mime_type**(str)
- 上载文件时要设置的MIME类型。
*
`bucket(str)`
- 要上传的存储桶。
*
`object(str)`
- 上载本地文件时要设置的对象名称。
*
`filename(str)`
- 要上载的文件的本地文件路径。
*
`mime_type(str)`
- 上载文件时要设置的MIME类型。
### 谷歌Kubernetes引擎
...
...
@@ -3089,9 +3089,9 @@ create_cluster(cluster,retry = <object object>,timeout = <object object>
参数:
*
**cluster**(_dict __或_ _google.cloud.container_v1.types.Cluster_)
- 群集protobuf或dict。如果提供了dict,它必须与protobuf消息的格式相同google.cloud.container_v1.types.Cluster
*
**重试**(_google.api_core.retry.Retry_)
- 用于重试请求的重试对象(google.api_core.retry.Retry)。如果指定None,则不会重试请求。
*
**timeout**(_float_)
- 等待请求完成的时间(以秒为单位)。请注意,如果指定了重试,则超时适用于每次单独尝试。
*
`cluster(dict 或 google.cloud.container_v1.types.Cluster)`
- 群集protobuf或dict。如果提供了dict,它必须与protobuf消息的格式相同google.cloud.container_v1.types.Cluster
*
`重试(google.api_core.retry.Retry)`
- 用于重试请求的重试对象(google.api_core.retry.Retry)。如果指定None,则不会重试请求。
*
`timeout(float)`
- 等待请求完成的时间(以秒为单位)。请注意,如果指定了重试,则超时适用于每次单独尝试。
返回:新集群或现有集群的完整URL
...
...
@@ -3109,9 +3109,9 @@ delete_cluster(name,retry = <object object>,timeout = <object object>)
参数:
*
**name**(str)
- 要删除的集群的名称
*
**重试**(_google.api_core.retry.Retry_)
- 重_试用_于确定何时/是否重试请求的对象。如果指定None,则不会重试请求。
*
**timeout**(_float_)
- 等待请求完成的时间(以秒为单位)。请注意,如果指定了重试,则超时适用于每次单独尝试。
*
`name(str)`
- 要删除的集群的名称
*
`重试(google.api_core.retry.Retry)`
- 重_试用_于确定何时/是否重试请求的对象。如果指定None,则不会重试请求。
*
`timeout(float)`
- 等待请求完成的时间(以秒为单位)。请注意,如果指定了重试,则超时适用于每次单独尝试。
返回:如果成功则删除操作的完整URL,否则为None
...
...
@@ -3123,7 +3123,7 @@ get_cluster(name,retry = <object object>,timeout = <object object>)
> 请求不会被重试。
参数:
**timeout**(_float_)
- 等待请求完成的时间(以秒为单位)。请注意,如果指定了重试,则超时适用于每次单独尝试。
参数:
`timeout(float)`
- 等待请求完成的时间(以秒为单位)。请注意,如果指定了重试,则超时适用于每次单独尝试。
返回:一个google.cloud.container_v1.types.Cluster实例
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录