Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
ERNIE
提交
5cdc8cac
E
ERNIE
项目概览
PaddlePaddle
/
ERNIE
9 个月 前同步成功
通知
107
Star
5997
Fork
1270
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
29
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
E
ERNIE
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
29
Issue
29
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
5cdc8cac
编写于
12月 08, 2022
作者:
K
Kennycao123
提交者:
GitHub
12月 08, 2022
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update readme.md
上级
f7150886
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
28 addition
and
19 deletion
+28
-19
Research/ERNIE-ViL2/readme.md
Research/ERNIE-ViL2/readme.md
+28
-19
未找到文件。
Research/ERNIE-ViL2/readme.md
浏览文件 @
5cdc8cac
简体中文|
[
English
](
./readme_en.md
)
# ERNIE-ViL 2.0 跨模态理解大模型
# ERNIE-ViL 2.0 基于多视角对比学习的跨模态预训练模型
更多技术细节请参考 我们的论文:
>[_**ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training**_](https://arxiv.org/pdf/2209.15270.pdf)
>
>Bin Shan, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
>
>
近年来,基于大规模数据预训练的跨模态模型取得了令人瞩目的成绩。基于
**对比学习**
的双塔预训练框架能够利用大规模的噪声图文数据,在跨模态检索等任务上展现出较大的效果提升,同时具备计算效率高等优势,受到了广泛的关注(如
[
CLIP
](
https://arxiv.org/pdf/2103.00020.pdf
)
,
[
ALIGN
](
https://arxiv.org/pdf/2102.05918.pdf
)
等)。然而,已有的视觉-语言预训练技术基于单视角的对比学习,无法同时学习多种模态间和模态内的关联性。
**ERNIE-ViL 2.0**
提出了一种
*基于多视角对比学习*
的预训练框架,通过构建丰富的视觉/文本视角,能够同时学习模态间和模态内的多种关联性,从而学习到更鲁棒的跨模态对齐,在跨模态检索等任务上取得了业界领先水平。
...
...
@@ -9,27 +15,30 @@ ERNIE-ViL 2.0 的多视角对比学习包括:
-
模态内对比学习:图-图,文-文
![
ERNIE-ViL2.0
](
./packages/src/framework.png
)
## 跨模态检索效果 (Zero-shot)
*
**ERNIE-ViL 2.0 BASE(ViT)**
:ViT-B-16(视觉backbone)+ERNIE 3.0 Base (文本backbone)
## 跨模态检索效果
以下为以中、英文模型在Flickr30K、COCO-CN的zero-shot结果,其他详见论文。
*
**ERNIE-ViL 2.0 英文 on Flickr30k**
:
| 数据集 | T2I R@1 | I2T R@1 | meanRecall |
|------------|-------|--------|----|
|
[
COCO-CN
](
https://arxiv.org/pdf/1805.08661.pdf
)
| 66.00 | 65.90 | 84.28 |
|
[
AIC-ICC
](
https://arxiv.org/pdf/1711.06475.pdf
)
| 17.93 | 30.41 | 38.57 |
*
**ERNIE-ViL 2.0 Large(ViT)**
:ViT-L-14(视觉backbone)+ERNIE 3.0 Large (文本backbone)
| Name | R@1 | R@5 | R@10 |
|------------|-------|-------|--------|
| Text2Image | 85.0 | 97.0 | 98.3 |
| Image2Text | 96.1 | 99.9 | 100.0 |
| 数据集 | T2I R@1 | I2T R@1 | meanRecall |
|------------|-------|--------|----|
|
[
COCO-CN
](
https://arxiv.org/pdf/1805.08661.pdf
)
| 70.30 | 68.80| 86.32 |
|
[
AIC-ICC
](
https://arxiv.org/pdf/1711.06475.pdf
)
| 20.17 | 32.29 | 41.08 |
*
**ERNIE-ViL 2.0 中文 COCO-CN**
:
*
这里AIC-ICC 为validation 集合的前10,000 行效果
| Name | R@1 | R@5 | R@10 |
|------------|-------|-------|--------|
| Text2Image | 69.6 | 91.2 | 96.9 |
| Image2Text | 69.1 | 92.9 | 97.1 |
*
这里结果均为论文最好结果
## 例子
这里以ERNIE-ViL 2.0 Base(ViT)(开源),在COCO-CN上进行ZERO-SHOT的图文检索任务为例子:
*
模型下载:
[
ERNIE-ViL 2.0 Base(ViT)
](
http://bj.bcebos.com/wenxin-models/ERNIE_VIL2_BASE_ViT.pdparams
)
*
数据准备:下载
[
COCO-CN的测试集
](
http
://bj.bcebos.com/wenxin-models/test.coco_cn.data
)
,然后在配置文件设置输入路径,
数据格式(默认为UTF-8编码), 为三列,由
\t
分开,第一列是文本,第二列是coco中的图像ID, 第三列是由base64编码的图片。
*
数据准备:下载
[
COCO-CN的测试集
](
http
s://github.com/li-xirong/coco-cn
)
,然后在配置文件设置输入路径,处理
数据格式(默认为UTF-8编码), 为三列,由
\t
分开,第一列是文本,第二列是coco中的图像ID, 第三列是由base64编码的图片。
*
首先安装环境, 安装
[
paddle>=2.1.3
](
https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
)
, 以及
[
requirements.txt
](
requirements.txt
)
要求的包,
*
然后,对 ./packages/configs/ernie_vil_base.yaml 进行各项配置,具体请参考配置中的各项注释(包括输入/输出路径位置和模型参数路径)。
*
最后,运行以下命令,得到跨模态的图文embeddings
...
...
@@ -45,12 +54,12 @@ $ bash run_infer.sh 2 ./packages/configs/ernie_vil_base.yaml
# Usage: python $0 output-embedding-path
$
python eval_retri.py test_out/cross_modal_embeddings.out
```
以下是ERNIE-ViL 2.0 Base模型在COCO-CN的结果
以下是ERNIE-ViL 2.0 Base模型在COCO-CN的结果
,详细结果见论文
| Name | R@1 | R@5 | R@10 | meanRecall |
|------------|-------|-------|--------|--------------|
| Text2Image | 6
6.00 | 90.00 | 96.10 | 84.03
|
| Image2Text | 6
5.90 | 91.40 | 96.30 | 84.53
|
| MeanRecall | 6
5.95 | 90.70 | 96.20 | 84.28
|
| Text2Image | 6
5.9 | 90.1 | 96.1 | 84.0
|
| Image2Text | 6
6.5 | 91.6 | 96.2 | 84.8
|
| MeanRecall | 6
6.2 | 90.9 | 96.2 | 84.4
|
## 备注
-
ERNIE-ViL 2.0 base模型已经开源,Large模型请移步
[
文心官网
](
https://wenxin.baidu.com/
)
。
-
ERNIE-ViL 2.0 base模型已经开源,Large模型
和最好效果
请移步
[
文心官网
](
https://wenxin.baidu.com/
)
。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录