Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PGL
提交
d7d96a89
P
PGL
项目概览
PaddlePaddle
/
PGL
通知
76
Star
4
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
11
列表
看板
标记
里程碑
合并请求
1
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PGL
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
11
Issue
11
列表
看板
标记
里程碑
合并请求
1
合并请求
1
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
d7d96a89
编写于
9月 22, 2020
作者:
W
Webbley
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add encodding support
上级
350f2de3
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
7 addition
and
2 deletion
+7
-2
pgl/utils/data/dataset.py
pgl/utils/data/dataset.py
+7
-2
未找到文件。
pgl/utils/data/dataset.py
浏览文件 @
d7d96a89
...
...
@@ -19,10 +19,13 @@ import os
import
sys
import
numpy
as
np
import
json
import
io
from
subprocess
import
Popen
,
PIPE
class
HadoopUtil
(
object
):
"""Implementation of some common hadoop operations.
"""
def
__init__
(
self
,
hadoop_bin
,
fs_name
,
fs_ugi
):
...
...
@@ -40,12 +43,14 @@ class HadoopUtil(object):
filelist
=
reader
.
read
().
split
()
return
filelist
def
open
(
self
,
filename
):
def
open
(
self
,
filename
,
encoding
=
'utf-8'
):
""" hdfs_file_open """
cmd
=
self
.
hadoop_bin
+
" fs -D fs.default.name="
+
self
.
fs_name
cmd
+=
" -D hadoop.job.ugi="
+
self
.
fs_ugi
cmd
+=
" -cat "
+
filename
p
=
os
.
popen
(
cmd
)
p
=
Popen
(
cmd
,
shell
=
True
,
stdout
=
PIPE
)
p
=
io
.
TextIOWrapper
(
p
.
stdout
,
encoding
=
encoding
,
errors
=
'ignore'
)
return
p
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录