
微软发布!适合所有阶段读者阅读的最新视觉-语言预训练 (VLP) 100+页综述!
以下文章来源于 https://zhuanlan.zhihu.com/p/649124369
本文调查了 过去几年开发的多模态智能视觉语言预训练(VLP)方法 。我们将这些方法分为三类: 用于图像文本 任务的 VLP,例如图像字幕、图像文本检索、视觉问答和视觉基础;用于核心计算机视觉 任务的 VLP,例如(开放集)图像分类、对象检测和分割;用于视频
微软发布!适合所有阶段读者阅读的最新视觉-语言预训练 (VLP) 100+页综述!