Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Oneflow-Inc
OneFlow-Benchmark
提交
308fb8e8
O
OneFlow-Benchmark
项目概览
Oneflow-Inc
/
OneFlow-Benchmark
上一次同步 2 年多
通知
1
Star
92
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
O
OneFlow-Benchmark
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
308fb8e8
编写于
6月 15, 2021
作者:
S
ShawnXuan
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
modify default path name
上级
395c28f5
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
4 addition
and
4 deletion
+4
-4
ClickThroughRate/WideDeepLearning/how_to_make_hf_dataset.md
ClickThroughRate/WideDeepLearning/how_to_make_hf_dataset.md
+4
-4
未找到文件。
ClickThroughRate/WideDeepLearning/how_to_make_hf_dataset.md
浏览文件 @
308fb8e8
...
...
@@ -36,7 +36,7 @@ import org.apache.spark.ml.feature.{StringIndexer, VectorAssembler, MinMaxScaler
import
org.apache.spark.ml.linalg._
import
java.nio.file.
{
Files
,
Paths
}
val
tmp_dir
=
"/
DATA/disk1/xuan
/wdl_tmp"
val
tmp_dir
=
"/
path/to
/wdl_tmp"
Files
.
createDirectories
(
Paths
.
get
(
tmp_dir
))
```
...
...
@@ -52,7 +52,7 @@ Files.createDirectories(Paths.get(tmp_dir))
```
scala
// load input file
var
input
=
spark
.
read
.
options
(
Map
(
"delimiter"
->
"\t"
)).
csv
(
"file:///
DATA/disk1/xuan/train.shuf.bak
"
)
var
input
=
spark
.
read
.
options
(
Map
(
"delimiter"
->
"\t"
)).
csv
(
"file:///
path/to/train.shuf
"
)
// rename columns [label, I1,...,I13, C1,...,C26]
val
NUM_INTEGER_COLUMNS
=
13
...
...
@@ -199,7 +199,7 @@ Time: 10 mins
这一段要处理26个列,内存消耗极大(170G),速度到不是最慢的。如果数据集更大,或可采用每次合一列的方式。前面的
`dense_fields`
也可以采用这种方式,列为
`TODO`
吧。
```
scala
val
tmp_dir
=
"/
DATA/disk1/xuan
/wdl_tmp"
val
tmp_dir
=
"/
path/to
/wdl_tmp"
val
features_dir
=
tmp_dir
++
"/filled_features"
val
features
=
spark
.
read
.
parquet
(
features_dir
)
...
...
@@ -263,7 +263,7 @@ df.write.mode("overwrite").parquet(parquet_dir)
## Step6 写入ofrecord
```
scala
val
tmp_dir
=
"/
DATA/disk1/xuan
/wdl_tmp"
val
tmp_dir
=
"/
path/to
/wdl_tmp"
import
org.oneflow.spark.functions._
val
parquet_dir
=
tmp_dir
++
"/parquet_all"
val
df
=
spark
.
read
.
parquet
(
parquet_dir
)
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录