Fork me on GitHub

文章#开源项目 #vectorai #向量数据库

AI 精选开源项目：构建向量应用程序、YOLO 存储库、多语言语料库

MaMatecold2021-08-26更新于 2021-09-066 分钟阅读2,216 次阅读

目录3 节

文末免费送电子书：七月在线干货组最新升级的《2021最新大厂AI面试题》免费送！

项目一： vectorai 一个用于构建基于向量的应用程序的平

Vector AI是一个框架，旨在使构建基于生产级矢量的应用程序的过程尽可能快速，轻松地进行。与json文档一起创建，存储，操纵，搜索和分析向量，以增强神经搜索，语义搜索，个性化推荐建议等应用程序。

主要特点：

多媒体数据向量化：Image2Vec，Audio2Vec等（任何数据都可以通过机器学习转换为矢量）
面向文档的存储：将向量与文档一起存储，而无需对向量的元数据进行数据库查找。
向量相似度搜索：可以使用向量相似度搜索来搜索向量和丰富的多媒体。许多流行的AI用例的骨干，如反向图像搜索，推荐，个性化等。
混合搜索：在某些情况下，向量搜索不如传统搜索有效。Vector AI可让您将向量搜索与传统搜索的所有功能（例如过滤，模糊搜索，关键字匹配）结合起来，以创建功能更强大的搜索。
多模型加权搜索：我们的向量搜索可高度自定义，可以对来自多个模型的多个向量执行搜索，并赋予它们不同的权重。
向量操作：灵活的搜索功能，可对向量进行开箱即用的操作。例如均值，中位数，总和等。
汇总：期望的所有传统汇总。例如按均值分组，数据透视表等
聚类：通过将向量和数据分配到存储桶中来解释它们，并根据提供的数据获取有关这些不同存储桶的统计信息。
向量分析：通过使用开箱即用的实用向量分析，可以更好地了解向量，从而更好地了解向量的质量。

Vector AI与其他最近邻实现方案进行比较：

随时可投入生产：API已得到全面管理，并且可以扩展为每天支持数亿次搜索。即使进行了数百万次搜索，它也通过边缘缓存，GPU利用率和软件优化而迅速发展，因此无需担心随着用例的扩展而扩展基础架构。
易于使用。快速入门：核心设计原则之一是专注于人们如何尽快开始使用Vector AI，同时确保仍然有大量功能和可定制性选项。
对向量及其特性的更深入的了解：旨在让人们做更多的事情，在将数据添加到索引后立即对其进行实际的实验，分析，解释和改进。
轻松存储矢量数据：Vector AI的面向文档的特性使用户可以标记，过滤搜索并尽可能地了解其矢量。
实时访问数据：可以实时访问Vector AI数据，一旦插入数据就可以立即进行搜索。无需等待数小时即可建立索引。
不可知的框架：我们绝不会在Vector AI上强制使用特定的框架。如果您有选择的框架，则可以使用它-只要您的文档可以JSON序列化！

项目地址：

https://github.com/vector-ai/vectorai

项目二：YOLOv4-pytorch YOLOv4的Pytorch存储库

这是YOLOv4架构的PyTorch重新实现，它基于官方的Darknet实现AlexeyAB / darknet与PASCAL VOC，COCO和客户数据集。

SEnet（CVPR 2017）
CBAM（CVPR 2018）

实现结果： 在这里插入图片描述

实现环境：

Nvida GeForce RTX 2080TI
CUDA10.0
CUDNN7.0
windows or linux
python 3.6

项目地址：

https://github.com/argusswift/YOLOv4-pytorch

项目三：opus-100-corpus 涵盖100种语言以英语为中心的多语言语料库

OPUS-100是涵盖100种语言的以英语为中心的多语言语料库。它是从OPUS集合中随机抽样的。

OPUS-100以英语为中心，这意味着所有训练对在源或目标方都包括英语。语料库涵盖100种语言（包括英语）。

我们根据OPUS中可用的并行数据量选择语言。OPUS集合包括多个语料库，从电影字幕到GNOME文档再到圣经。

我们没有整理数据或尝试平衡不同域的表示，而是选择了最简单的方法，即为每种语言对下载所有语料库并将它们连接在一起。

数据集分为训练，开发和测试部分。我们从每种语言对中随机抽取多达100万个句子对进行训练，并为开发和测试分别抽取多达2000个句子对。

为了确保训练数据与开发/测试数据之间没有重叠（在单语句子级别上），我们在采样过程中应用了过滤器以排除已经采样的句子。请注意，这是跨语言完成的，例如，训练数据的葡萄牙语-英语部分中的英语句子不会出现在北印度语-英语测试集中。

OPUS-100包含大约5500万个句子对。在这99个语言对中，有44个具有1M句子对训练数据，有73个具有至少100k，有95个具有至少10k。

为了支持对zero-short翻译的评估，我们还对15种阿拉伯语，中文，荷兰语，法语，德语和俄语配对的数据进行了采样。过滤用于排除OPUS-100中已有的句子。

项目地址：

https://github.com/EdinburghNLP/opus-100-corpus

评论区回复 “2021”，七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》，免费送！

持续无限期更新大厂最新面试题，AI干货资料，目前干货组汇总了今年3月-6月份，各大厂面试题。在这里插入图片描述

相似文章推荐

文章

AI 开源项目精选：GPT2.0、激活可视化、全面基本面分析包

2.1k0将近 5 年前

文章

抖音云原生向量数据库从“非主流”到“新常态”的演变

7470超过 2 年前

文章

58 同城向量检索平台架构实践

2.3k0超过 5 年前

文章

万物皆为向量：爱奇艺在线向量召回工程服务化实践

3.6k0将近 5 年前

评论 (0)

后参与评论

暂无评论，来发表第一条吧