文章目录
多模态研究学习
2021 年诺贝尔生理学、医学奖揭晓,获奖者是戴维・朱利叶斯(DavidJulius)和阿代姆・帕塔博蒂安(Ardem Patapoutian),表彰他们在 “发现温度和触觉感受器” 方面作出的贡献。那作为算法从业者,我们该思考些什么呢?人在感知这个世界的时候,主要的方式就是视觉,嗅觉,听觉等等。其中语音,文字和图像是最重要的传播载体,这三个领域的研究也都在这几年得到了快速的发展,今天我们就来看看其交叉的领域即文字 + 图像的图文多模态,其实多模态涉及的领域很多,目前主流的是文字 + 图像这一分支。从 2018 年 Bert 横空出世以后,以预训练模型为基石的各个领域百花齐放,下面梳理的多模态预训练模型也是在这样一个背景下诞生的,具体大概是从 2019 年开始涌现的。主要包括 VILBERT
、 B2T2
、 LXMERT
、 VisualBERT
、 Unicoder-VL
、 VL-BERT
、 UNITER
、 Pixel-BERT
、 ERNIE-ViL
、 UNIMO
、 CLIP
、 FLAVA
、 ERNIE-VILG
、 X-VLM
、 OFA
、 STA
等。目前布局在这一赛道的公司包括:腾讯、百度、谷歌、微软、Facebook、UCLA、京东、阿里等等。
1 多模态综述
2 X-VLM
字节 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
3 ERNIE-VILG
4 FLAVA
5 OFA
ICML 2022|达摩院多模态模型 OFA,实现模态、任务和架构三个统一
- 论文: https://arxiv.org/pdf/2202.03052.pdf
- Github: https://github.com/OFA-Sys/OFA
- 体验接口: https://huggingface.co/OFA-Sys
6 STA
电子科大(申恒涛团队)& 京东 AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能 SOTA!优于基于双视频表示的方法!