Fork me on GitHub

微软发布!适合所有阶段读者阅读的最新视觉-语言预训练 (VLP) 100+页综述!

以下文章来源于 https://zhuanlan.zhihu.com/p/649124369

本文调查了 过去几年开发的多模态智能视觉语言预训练(VLP)方法 。我们将这些方法分为三类: 用于图像文本 任务的 VLP,例如图像字幕、图像文本检索、视觉问答和视觉基础;用于核心计算机视觉 任务的 VLP,例如(开放集)图像分类、对象检测和分割;用于视频

微软发布!适合所有阶段读者阅读的最新视觉-语言预训练 (VLP) 100+页综述!


本文地址:https://www.6aiq.com/article/1694239329707
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出