文章目录


多模态研究学习

2021 年诺贝尔生理学、医学奖揭晓,获奖者是戴维・朱利叶斯(DavidJulius)和阿代姆・帕塔博蒂安(Ardem Patapoutian),表彰他们在 “发现温度和触觉感受器” 方面作出的贡献。那作为算法从业者,我们该思考些什么呢?人在感知这个世界的时候,主要的方式就是视觉,嗅觉,听觉等等。其中语音,文字和图像是最重要的传播载体,这三个领域的研究也都在这几年得到了快速的发展,今天我们就来看看其交叉的领域即文字 + 图像的图文多模态,其实多模态涉及的领域很多,目前主流的是文字 + 图像这一分支。从 2018 年 Bert 横空出世以后,以预训练模型为基石的各个领域百花齐放,下面梳理的多模态预训练模型也是在这样一个背景下诞生的,具体大概是从 2019 年开始涌现的。主要包括 VILBERTB2T2LXMERTVisualBERTUnicoder-VLVL-BERTUNITERPixel-BERTERNIE-ViLUNIMOCLIPFLAVAERNIE-VILGX-VLMOFASTA 等。目前布局在这一赛道的公司包括:腾讯、百度、谷歌、微软、Facebook、UCLA、京东、阿里等等。

1 多模态综述

多模态综述

2 X-VLM

字节 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐

3 ERNIE-VILG

多模态生成模型 ERNIE-VILG

4 FLAVA

最新图文大一统多模态模型:FLAVA

5 OFA

ICML 2022|达摩院多模态模型 OFA,实现模态、任务和架构三个统一

6 STA

电子科大(申恒涛团队)& 京东 AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能 SOTA!优于基于双视频表示的方法!

× 请我吃糖~
打赏二维码