Merge pull request #2853 from taosdata/hjxilinx-patch-2

Update architecture-ch.md

Merge pull request #2853 from taosdata/hjxilinx-patch-2
Update architecture-ch.md
465da4cb · Shengliang Guan · GitHub · 863932b3 · ffd6a89f · 465da4cb
隐藏空白更改
内联并排

Showing with 41 addition and 18 deletion

documentation20/webdocs/markdowndocs/architecture-ch.md documentation20/webdocs/markdowndocs/architecture-ch.md +41 -18

未找到文件。
--- a/documentation20/webdocs/markdowndocs/architecture-ch.md
+++ b/documentation20/webdocs/markdowndocs/architecture-ch.md
@@ -4,16 +4,16 @@
 ### 物联网典型场景
 在典型的物联网、车联网、运维监测场景中，往往有多种不同类型的数据采集设备，采集一个到多个不同的物理量。而同一种采集设备类型，往往又有多个具体的采集设备分布在不同的地点。大数据处理系统就是要将各种采集的数据汇总，然后进行计算和分析。对于同一类设备，其采集的数据都是很规则的。以智能电表为例，假设每个智能电表采集电流、电压、相位三个量，其采集的数据类似如下的表格：
-| Device ID |  Time Stamp   | current | voltage | phase |      |     location     | groupId |
+| Device ID |  Time Stamp   | current | voltage | phase |     location     | groupId |
-| :-------: | :-----------: | :-----: | :-----: | :---: | :--- | :--------------: | :-----: |
+| :-------: | :-----------: | :-----: | :-----: | :---: | :--------------: | :-----: |
-|   D1001   | 1538548685000 |  10.3   |   219   | 0.31  |      | Beijing.Chaoyang |    2    |
+|   D1001   | 1538548685000 |  10.3   |   219   | 0.31  | Beijing.Chaoyang |    2    |
-|   D1002   | 1538548684000 |  10.2   |   220   | 0.23  |      | Beijing.Chaoyang |    3    |
+|   D1002   | 1538548684000 |  10.2   |   220   | 0.23  | Beijing.Chaoyang |    3    |
-|   D1003   | 1538548686500 |  11.5   |   221   | 0.35  |      | Beijing.Haidian  |    3    |
+|   D1003   | 1538548686500 |  11.5   |   221   | 0.35  | Beijing.Haidian  |    3    |
-|   D1004   | 1538548685500 |  13.4   |   223   | 0.29  |      | Beijing.Haidian  |    2    |
+|   D1004   | 1538548685500 |  13.4   |   223   | 0.29  | Beijing.Haidian  |    2    |
-|   D1001   | 1538548695000 |  12.6   |   218   | 0.33  |      | Beijing.Chaoyang |    2    |
+|   D1001   | 1538548695000 |  12.6   |   218   | 0.33  | Beijing.Chaoyang |    2    |
-|   D1004   | 1538548696600 |  11.8   |   221   | 0.28  |      | Beijing.Haidian  |    2    |
+|   D1004   | 1538548696600 |  11.8   |   221   | 0.28  | Beijing.Haidian  |    2    |
-|   D1002   | 1538548696650 |  10.3   |   218   | 0.25  |      | Beijing.Chaoyang |    3    |
+|   D1002   | 1538548696650 |  10.3   |   218   | 0.25  | Beijing.Chaoyang |    3    |
-|   D1001   | 1538548696800 |  12.3   |   221   | 0.31  |      | Beijing.Chaoyang |    2    |
+|   D1001   | 1538548696800 |  12.3   |   221   | 0.31  | Beijing.Chaoyang |    2    |
 <center> 表1：智能电表数据示例</center>
@@ -22,18 +22,18 @@
 ### 数据特征 
 除时序特征外，仔细研究发现，物联网、车联网、运维监测类数据还具有很多其他明显的特征。
-1. 数据是结构化的；
+1. 数据高度结构化；
 2. 数据极少有更新或删除操作；
 3. 无需传统数据库的事务处理；
 4. 相对互联网应用，写多读少；
 5. 流量平稳，根据设备数量和采集频次，可以预测出来；
 6. 用户关注的是一段时间的趋势，而不是某一特点时间点的值；
-7. 数据是有保留期限的；
+7. 数据有保留期限；
-8. 数据的查询分析一定是基于时间段和地理区域的；
+8. 数据的查询分析一定是基于时间段和地理区域；
-9. 除存储查询外，还往往需要各种统计和实时计算操作；
+9. 除存储查询外，还需要各种统计和实时计算操作；
 10. 数据量巨大，一天采集的数据就可以超过100亿条。
-充分利用上述特征，TDengine采取了一特殊的优化的存储和计算设计来处理时序数据，能将系统处理能力显著提高。
+充分利用上述特征，TDengine 采取了特殊的优化的存储和计算设计来处理时序数据，能将系统处理能力显著提高。
 ### 关系型数据库模型
 因为采集的数据一般是结构化数据，而且为降低学习门槛，TDengine采用传统的关系型数据库模型管理数据。因此用户需要先创建库，然后创建表，之后才能插入或查询数据。TDengine采用的是结构化存储，而不是NoSQL的key-value存储。
@@ -262,9 +262,32 @@ dataDir /mnt/disk6/taos 2
 TDengine提供了多种多样针对表和超级表的查询处理功能，除了常规的聚合查询之外，还提供针对时序数据的窗口查询、统计聚合等功能。TDengine的查询处理需要客户端、vnode, mnode节点协同完成。
 5.1 单表查询
+SQL语句的解析和校验工作在客户端完成。解析SQL语句并生成抽象语法树(Abstract Syntax Tree, AST)，然后对其进行校验和检查。以及向管理节点(mnode)请求查询中指定表的元数据信息(table metadata)。
-5.4 时间轴聚合、插值 
+根据元数据信息中的FQDN信息，将查询请求序列化后发送到该表所在的数据节点（dnode）。dnode接收到查询请求后，识别出该查询请求指向的虚拟节点（vnode），将消息转发到vnode的查询执行队列。vnode的查询执行线程建立基础的查询执行环境，并立即返回该查询请求，同时开始执行该查询。
-5.2 多表聚合查询
+客户端在获取查询结果的时候，dnode的查询执行队列中的工作线程会等待vnode执行线程执行完成，才能将查询结果返回到请求的客户端。
-5.3 预计算
+5.2 时间轴聚合、插值 
\ No newline at end of file
+时序数据有别于普通数据的显著特征是每条记录均具有时间戳，因此针对具有时间戳数据在时间轴上进行聚合是不同于普通数据库的重要功能。从这点上来看，与流计算引擎的窗口查询有相似的地方。
+在TDengine中引入关键词interval来进行时间轴上固定长度时间窗口的切分，并按照时间窗口对数据进行聚合，对窗口范围内的数据按需进行聚合。例如：
+select count(*) from D1001 interval(1h)
+针对D1001设备采集的数据，按照1小时的时间窗口返回每小时存储的记录数量。
+在需要连续获得查询结果的应用场景下，如果给定的时间区间存在数据缺失，会导致该区间数据结果也丢失。TDengine提供策略针对时间轴聚合计算的结果进行插值，通过使用关键词Fill就能够对时间轴聚合结果进行插值。例如：
+select count(*) from D1001 interval(1h) fill(prev)
+针对D1001设备采集数据统计每小时记录数，如果某一个小时不存在数据，这返回之前一个小时的统计数据。TDengine提供前向插值(prev)、线性插值(linear)、NULL值填充(NULL)、特定值填充(value)。
+5.3 多表聚合查询
+多表聚合查询与单表查询的整体流程相同，但是存在如下的差异：
+1）由于多表可能分布在不同的节点(dnode)，因此多表的聚合查询需要首先获得表所在的全部数据节点的信息，并且同时向相关的dnode发出查询请求。
+2）每个vnode的计算获得的中间结果(partial results)需要进行第二阶段的聚合才能形成最终结果，第二阶段的聚合过程在客户端完成。
+3）由于表标签信息存储在vnode中，因此针对标签信息的查询也需要vnode完成。客户端将标签的过滤表达式封装在查询请求结构体中发送给vnode，由vnode的查询执行线程从中抽取出标签查询条件，然后执行查询。标签查询与过滤是在针对表的查询之前完成。标签查询完成以后，将符合条件的表纳入到接下来的查询处理流程中。
+5.4 预计算
+为有效提升查询处理的性能，针对物联网数据的不可更改的特点，在数据块头部记录该数据块中存储数据的统计信息：包括最大值、最小值、和。我们称之为预计算单元。如果查询处理涉及整个数据块的全部数据，直接使用预计算结果，完全不需要读取数据块的内容。由于预计算数据量远小于磁盘上存储的数据块数据的大小，对于磁盘IO为瓶颈的查询处理，使用预计算结果可以极大地减小读取IO压力，加速查询处理的流程。预计算机制与Postgre SQL的索引BRIN（block range index）有异曲同工之妙。