Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
storm-doc-zh
提交
93e17e1b
S
storm-doc-zh
项目概览
OpenDocCN
/
storm-doc-zh
通知
0
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
storm-doc-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
93e17e1b
编写于
9月 11, 2019
作者:
片刻小哥哥
提交者:
GitHub
9月 11, 2019
浏览文件
操作
浏览文件
下载
差异文件
辛苦了, Merge pull request #138 from theyzw/master
Update 10.md
上级
2277a8f7
0f9ae925
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
3 deletion
+3
-3
docs/10.md
docs/10.md
+3
-3
未找到文件。
docs/10.md
浏览文件 @
93e17e1b
...
...
@@ -36,9 +36,9 @@ worker 的数量是由 supervisors 来确定的 -- 每个 supervisor 将监督
每台机器每个 topology(拓扑)使用多个 worker 没有很好的理由。
一个 topology(拓扑)运行在三个 8 核心的节点上, 并行度是 24, 每台机器的每个 bolt 将得到 8 个 executor(执行器), 即每个核心一个.
与运行三个 worker(每个有 8 个指定的 executor)相比,有 24 个 worker(每个分配一个 executor)的运行
有 3 个大的优势.
一个 topology(拓扑)运行在三个 8 核心的节点上, 并行度是 24, 每台机器的每个 bolt 将得到 8 个 executor(执行器), 即每个核心一个.
运行三个 worker(每个有 8 个指定的 executor)相对于运行 24 个 worker(每个分配一个 executor)
有 3 个大的优势.
第一,对同一个 worker 的 executor 进行重新分区(shuffles 或 group-bys)的数据不必放入传输缓冲区. 相反, tuple 直接从发送到接收缓冲区存储. 这是一个很大的优势. 相反,如果目标 executor 在
不同 worker 的同一台计算机
上, 则必须执行 send -
>
worker transfer -
>
local socket -
>
worker recv -
>
exec recv buffer. 它不经过打网卡,但并不像 executor 在同一个 worker 那么大.
第一,对同一个 worker 的 executor 进行重新分区(shuffles 或 group-bys)的数据不必放入传输缓冲区. 相反, tuple 直接从发送到接收缓冲区存储. 这是一个很大的优势. 相反,如果目标 executor 在
同一台计算机上的不同 worker
上, 则必须执行 send -
>
worker transfer -
>
local socket -
>
worker recv -
>
exec recv buffer. 它不经过打网卡,但并不像 executor 在同一个 worker 那么大.
通常情况下,三个具有非常大的 backing cache(后备缓存)的 aggregator(聚合器)比拥有小的 backing caches(后台缓存)的二十四个 aggregators(聚合器)更好,因为这样减少了数据倾斜的影响,并提高了 LRU 效率.
...
...
@@ -126,4 +126,4 @@ trident batch 是一个有点过载的设施. 与 partition(分区)数量一
*
使用 domain knowledge 设置时间限制
*
引入 _punctuation_: 一个 record 知道紧跟特定时间 bucket 内所有记录之后而来. Trident 使用此方案知道 batch 何时完成. 例如,如果您从一组传感器接收记录,则每个传感器都将按照传感器的顺序发送,所有传感器都会向您发送 3:02:xx 或更后版本的时间戳,以让您知道可以 commit(提交).
*
在可能的情况下, 使您的进程增加: 进来的每个 value 会让答案越来越正确. Trident ReducerAggregator 是一个 operator, 它采取先前的结果和一组新的记录,并返回一个新的结果. 这样可以将结果缓存并序列化到数据存储; 如果一台服务器脱机一天,然后在一天内回来一整天的数据,旧的结果将被平静地检索和更新.
*
Lambda 架构: 在接收时将所有 event(时间)记录到 archival store(S3, HBase, HDFS). 在快速处理的层面上, 一旦时间窗口被 clear(清楚), 处理 bucket 以获得可行的答案, 并忽略比时间窗口更旧的一切. 定期运行全局聚合以计算 "正确的" 答案。
\ No newline at end of file
*
Lambda 架构: 在接收时将所有 event(时间)记录到 archival store(S3, HBase, HDFS). 在快速处理的层面上, 一旦时间窗口被 clear(清楚), 处理 bucket 以获得可行的答案, 并忽略比时间窗口更旧的一切. 定期运行全局聚合以计算 "正确的" 答案。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录