AI 精选开源项目:构建向量应用程序、YOLO 存储库、多语言语料库

文末免费送电子书:七月在线干货组最新 升级的《2021最新大厂AI面试题》免费送!

项目一: vectorai 一个用于构建基于向量的应用程序的平

Vector AI是一个框架,旨在使构建基于生产级矢量的应用程序的过程尽可能快速,轻松地进行。与json文档一起创建,存储,操纵,搜索和分析向量,以增强神经搜索,语义搜索,个性化推荐建议等应用程序。

主要特点:

  • 多媒体数据向量化:Image2Vec,Audio2Vec等(任何数据都可以通过机器学习转换为矢量)
  • 面向文档的存储:将向量与文档一起存储,而无需对向量的元数据进行数据库查找。
  • 向量相似度搜索:可以使用向量相似度搜索来搜索向量和丰富的多媒体。许多流行的AI用例的骨干,如反向图像搜索,推荐,个性化等。
  • 混合搜索:在某些情况下,向量搜索不如传统搜索有效。Vector
    AI可让您将向量搜索与传统搜索的所有功能(例如过滤,模糊搜索,关键字匹配)结合起来,以创建功能更强大的搜索。
  • 多模型加权搜索:我们的向量搜索可高度自定义,可以对来自多个模型的多个向量执行搜索,并赋予它们不同的权重。
  • 向量操作:灵活的搜索功能,可对向量进行开箱即用的操作。例如均值,中位数,总和等。
  • 汇总:期望的所有传统汇总。例如按均值分组,数据透视表等
  • 聚类:通过将向量和数据分配到存储桶中来解释它们,并根据提供的数据获取有关这些不同存储桶的统计信息。
  • 向量分析:通过使用开箱即用的实用向量分析,可以更好地了解向量,从而更好地了解向量的质量。
    在这里插入图片描述

Vector AI与其他最近邻实现方案进行比较:

  • 随时可投入生产:API已得到全面管理,并且可以扩展为每天支持数亿次搜索。即使进行了数百万次搜索,它也通过边缘缓存,GPU利用率和软件优化而迅速发展,因此无需担心随着用例的扩展而扩展基础架构。
  • 易于使用。快速入门:核心设计原则之一是专注于人们如何尽快开始使用Vector AI,同时确保仍然有大量功能和可定制性选项。
  • 对向量及其特性的更深入的了解:旨在让人们做更多的事情,在将数据添加到索引后立即对其进行实际的实验,分析,解释和改进。
  • 轻松存储矢量数据:Vector AI的面向文档的特性使用户可以标记,过滤搜索并尽可能地了解其矢量。
  • 实时访问数据:可以实时访问Vector AI数据,一旦插入数据就可以立即进行搜索。无需等待数小时即可建立索引。
  • 不可知的框架:我们绝不会在Vector AI上强制使用特定的框架。如果您有选择的框架,则可以使用它-只要您的文档可以JSON序列化!

项目地址:

https://github.com/vector-ai/vectorai


项目二:YOLOv4-pytorch YOLOv4的Pytorch存储库

这是YOLOv4架构的PyTorch重新实现,它基于官方的Darknet实现AlexeyAB / darknet与PASCAL VOC,COCO和客户数据集。

  • SEnet(CVPR 2017)
    在这里插入图片描述
  • CBAM(CVPR 2018)
    在这里插入图片描述

实现结果:
在这里插入图片描述

实现环境:

  • Nvida GeForce RTX 2080TI
  • CUDA10.0
  • CUDNN7.0
  • windows or linux
  • python 3.6

项目地址:

https://github.com/argusswift/YOLOv4-pytorch



项目三:opus-100-corpus 涵盖100种语言以英语为中心的多语言语料库

OPUS-100是涵盖100种语言的以英语为中心的多语言语料库。它是从OPUS集合中随机抽样的。

OPUS-100以英语为中心,这意味着所有训练对在源或目标方都包括英语。语料库涵盖100种语言(包括英语)。

我们根据OPUS中可用的并行数据量选择语言。OPUS集合包括多个语料库,从电影字幕到GNOME文档再到圣经。

我们没有整理数据或尝试平衡不同域的表示,而是选择了最简单的方法,即为每种语言对下载所有语料库并将它们连接在一起。

数据集分为训练,开发和测试部分。我们从每种语言对中随机抽取多达100万个句子对进行训练,并为开发和测试分别抽取多达2000个句子对。

为了确保训练数据与开发/测试数据之间没有重叠(在单语句子级别上),我们在采样过程中应用了过滤器以排除已经采样的句子。请注意,这是跨语言完成的,例如,训练数据的葡萄牙语-英语部分中的英语句子不会出现在北印度语-英语测试集中。

OPUS-100包含大约5500万个句子对。在这99个语言对中,有44个具有1M句子对训练数据,有73个具有至少100k,有95个具有至少10k。

为了支持对zero-short翻译的评估,我们还对15种阿拉伯语,中文,荷兰语,法语,德语和俄语配对的数据进行了采样。过滤用于排除OPUS-100中已有的句子。

项目地址:

https://github.com/EdinburghNLP/opus-100-corpus


评论区回复 “2021”,七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》,免费送!

持续无限期更新大厂最新面试题,AI干货资料,目前干货组汇总了今年3月-6月份,各大厂面试题。
在这里插入图片描述


本文地址:https://www.6aiq.com/article/1629999453664
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出