昨天,腾讯云重新定义了向量数据库

摘要:未来企业之间的竞争将更加集中在数据上,谁能够更好地利用数据,谁就有可能在未来的竞争中取胜。而看好AI,就应该看好向量数据库,这是腾讯云的逻辑。——腾讯云数据库副总经理罗云

昨天,腾讯云在北京召开发布会,宣布重新定义向量数据库,并发布了国内首个AI原生的向量数据库Tencent Cloud VectorDB。

先来快速了解下腾讯云重新定义向量数据库的思考维度:

昨天,腾讯云重新定义了向量数据库

图片来自,发布会现场拍摄。

腾讯云提出,向量数据库不仅应该支持自然语言查询,更应将AI算法深度融合至计算层、存储层和数据库引擎中,从而提升AI原生应用的开发效率。

关于腾讯云对向量数据库的重新定义,你有什么看法?在老鱼看来,是具有创新性的,该定义把AI与数据库技术深度融合,涉及到自然语言查询,以及深度结合AI的数据算子和存储优化,这些都为处理大规模非结构化数据带来了新的可能性。

此次重新定义的价值表现在两个方面。首先,这提供了一种全新的AI应用开发解决方案。通过自然语言查询和AI算法的深度结合,可以极大提高开发效率。其次,利用存储优化和AI的辅助,可以显著降低存储成本并提高数据处理效率。

向量数据库及其核心工作原理

在ChatGPT火起来之前,可能90%的吃瓜群众都不知道向量数据库为何物?如今,如果你还不知道向量数据库,那就out啦。因为,几乎所有由大语言模型(LLM)驱动的 AI产品或技术都使用了向量数据库,向量数据库是AI的基础设施。

那么,向量数据库究竟是什么?通俗地讲,是一种帮助机器学习模型在海量数据中找到相似样本的技术。这可能听起来有些抽象,那就让老鱼用一个例子来解释一下。

假设一个图书馆就是一个数据库,而书就是数据库中的数据。在传统的数据库中,我们通过书名、作者、出版日期等关键词去搜索我们想要的书籍。这个过程类似于我们在数据库中通过关键词检索需要的数据

然而,向量数据库的运作机制又是怎样的呢?在一个”向量”图书馆中,假设你不仅想找到一本特定的书,你还想找到所有和这本书类似的书,例如内容、风格、主题都相似的书。这在传统图书馆中可能是一项极具挑战的任务,因为这需要逐一浏览和对比每一本书的内容。

然而,在”向量”图书馆中,每本书都会被转换成一个向量,它像书的指纹,包含了书的所有特征信息。然后,我们可以通过计算这些向量之间的距离或相似度,找到与特定书最相似的其他书籍。这就是向量数据库的核心工作原理。

例如, “I like to eat pizza” 这句话,在我们人类的眼中极为简单,但在计算机眼中,它会被解构成每一个单词对应的向量。如下:

昨天,腾讯云重新定义了向量数据库

有趣的是,语义相似的句子会对应到相似的向量。就像我们经常玩的魔方,可以通过转动、找到与目标向量近似的向量。

在现实中,向量数据库被广泛应用在AI和机器学习领域,特别是在处理和查询大量高维向量数据的场景,如人脸识别,语音识别,商品推荐等等。通过向量数据库,我们可以在海量数据中,快速有效地找到相似的向量,从而提高检索的效率和精度。这种能力不仅极大地推动了AI技术的实用化,也使得我们的生活变得更加便捷和个性化。

向量数据库与大模型、生成式人工智能的逻辑关系

我们再来看一看向量数据库与大模型以及生成式人工智能的逻辑关系。

应用开发者如何使用向量数据库和大模型处理和查询过程?通常,这个过程包括文本分割、Embedding转换、向量存储、问题查询、向量检索、最后到大模型的推理。

老鱼尽量把复杂的技术讲得简单一些,向量数据库就像是一个拥有极为丰富藏书的图书馆,大模型则好比一位拥有专业图书馆管理员,总能在海量的书籍中迅速找到读者所需的信息。而生成式人工智能,就像是一位敏捷的作家,能基于图书馆中已有的信息创作出全新的作品。

腾讯云重新定义了向量数据库的概念,他们认为向量数据库不仅是一个数据的存储库,同时也是一种关键的训练工具。

这个定义的核心在于,向量数据库能显著提升生成式人工智能的输出质量,同时拓宽了大模型的时间和空间边界,解决了大模型对于新信息的无知和可能的隐私泄露问题。

众所周知,现在的大模型,如GPT-4,其训练数据截止日期是2021年9月,那么对于此后的事情,它是一无所知的。然而,向量数据库有能力存储最新的信息,从而填补这个漏洞。

同时,通过在本地存储向量数据,向量数据库能有效地防止了大模型可能导致的隐私泄露风险,这无疑是今天许多企业和组织极为关心的问题。

腾讯云向量数据库能不能打?

评估一个向量数据库能不能打,通常需要考量多个关键因素:性能、可靠性、易用性、扩展性、成本效益,以及AI和机器学习的集成等。

1、性价比:向量数据库应当保证良好的性能,同时尽量降低存储和计算成本。

2、成熟度与可靠性:一个高质量的向量数据库应该提供稳定可靠的服务,即使在面临大规模并发查询时也能保持高可用性,并且在硬件出现故障时能够保证数据的持久性。

3、易用性:一个高质量的向量数据库应该是简单易用的,包括简单快速的数据插入、查询和删除流程,同时提供易于理解和使用的API。此外,对于各种常见的数据格式和编程语言的支持也是必要的。

4、AI和机器学习的集成:对于AI原生向量数据库,其是否能够深度集成AI和机器学习算法,并提供丰富的AI功能,也是评价其成败的一个重要指标。

……

接下来,让我们看一下腾讯云Tencent Cloud VectorDB展示的一些核心亮点数据

高吞吐:最高支持10亿级向量检索规模, 相比单机插件式索引规模提升10倍;具备百万级每秒查询(QPS)的峰值能力;

低延迟:P99响应延迟20ms

高可用:基于腾讯集团大规模运营积累,日均处理万亿次请求,现网运营可用性指标达到99.99%

弹性扩展一站式向量检索数据库 :Embedding+检索集成方案,数据嵌入AI效率提升10倍

向量化能力(embedding):多次获得权威机构认可,2021年曾登顶MS MARCO榜单第一、相关成果已发表于NLP顶会EMNLPACL。

低成本:将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2—4个数量级。

……

这些指标意味着怎样的水平?90%的吃瓜群众可能没有概念,那就让我们深入解析一下。

腾讯云数据库副总经理罗云接受老鱼采访时,他表示,Tencent Cloud VectorDB在业界处于已经位居第一梯队领先位置,其性能和谷歌的AI检索引擎相媲美,,远超一些开源的解决方案。比如:简单的FAISS库应用可能在数十万到百万级别,而插件式+单机能够达到几百万,到亿级别就比较少了。

罗云进一步表示,Tencent Cloud VectorDB在接入层支持自然语言查询,在计算层,通过AI算子替代企业寻找/调优AI算法,将接入工期从1个月缩短到3天。在存储层,融合智能压缩算法,把向量存储成本降低50%。

在接受采访时,罗云还分享了一份有趣的数据:与传统流程相比,使用Tencent Cloud VectorDB可以实现10倍的性能提升。在传统开发流程中,AI应用的开发者需要花费大量时间进行数据处理、模型选取、向量化等步骤。而在Tencent Cloud VectorDB的帮助下,这些步骤可以大大简化,使开发者可以在更短的时间内完成工作。

罗云对向量数据库的市场前景表达了乐观的看法,随着AI技术的快速发展,他预计向量数据库有望在NoSQL领域或整个数据库领域占据重要的位置。

最后,对于Tencent Cloud VectorDB的目标客户,罗云表示主要是需要使用大模型和处理大量数据的企业,特别是那些在AI,机器学习,搜索和推荐系统等领域有大量应用的公司。

而Tencent Cloud VectorDB的出现,无疑为这些企业提供了一种新的选择。从性能、可靠性和成本效益来看,Tencent Cloud VectorDB有明显优势。那么,腾讯云向量数据库能否吸引大量的企业用户,从而改变现有的云数据库市场竞争格局,我们拭目以待。

文/老鱼

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

WEEX唯客是一家安全易用的加密货币交易所,由新加坡顶级区块链投资机构斥资1亿美元打造,注册用户超百万,日均交易额超15亿美元,已获得美国MSB、加拿大MSB、SVGFSA金融牌照。

WEEX唯客平台所有数据皆于海外数据库严格保存,服务器多地部署和备份,并采用满足银行级安全需求的亚马逊AWS及高速高稳定性的香港CDN,为全球用户提供最安全、最专业、最具隐私性的交易服务。

WEEX唯客是全球交易深度最好的合约交易所之一,位居CMC交易所流动性排名前五,订单厚度、价差领先同行,微秒级撮合,零滑点、零插针,最大程度降低交易成本及流动性风险,让用户面对极端行情也能丝滑成交。

在WEEX唯客,用户不仅能享受行业最低的交易手续费(Taker 0手续费,Maker 0.06%),还可零门槛一键跟随专业交易员操作,复制高手的交易策略,平台严格甄选数5,000多名优秀交易员供用户挑选。

为保障用户资金安全,WEEX唯客设立了1,000 BTC投资者保护基金,以在非用户自身原因的情况下有效补偿用户资金出现的意外损失,并公示资金池热钱包地址,让用户交易安心无忧。

WEEX官网:weex.com

你也可以在 CMCCoingecko非小号X (Twitter)中文 X (Twitter)YoutubeFacebookLinkedin微博 上关注我们,第一时间获取更多投资资讯和空投福利。

在线咨询

WEEX华语社群:https://t.me/weex_group

WEEX英文社群:https://t.me/Weex_Global

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容

随即推荐
在Web3深耕11年的鉴叔:用技术看项目 用心建设Web3-H5资源网

在Web3深耕11年的鉴叔:用技术看项目 用心建设Web3

1.请您介绍一下自己 大家好,我是鉴叔。我是J-Lab发起人,游戏爱好者,专注于投研、空投以及链游等领域。 因为今年我特别看好Web3赛道的发展,并期待Web3有更多创新产品被开发出来,所以我扩建...
1个月前
04114
安卓樱花动漫v2.4.1绿化版-H5资源网

安卓樱花动漫v2.4.1绿化版

软件介绍 樱花动漫是一款老牌看动漫的神器,专门为二次元爱好者准备,为大家提供海量优质的动漫,做好了详细的分类,大家可以随时在上面找到自己想看的动漫,然后开始轻松的追番。
2年前
04315

电脑怎么重装系统win7旗舰版,电脑重装win7旗舰版系统

电脑怎么重装系统win7?相信很多新手都遇到过这个问题,其实方法并不难,今天,小编就把最简单的重装win7旗舰版方法带给大家,快来一起看看吧。
电脑常见的操作系统有哪些类型-H5资源网

电脑常见的操作系统有哪些类型

常见的操作系统有哪些类型?操作系统(operation system,简称OS)是管理计算机硬件与软件资源的计算机程序。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出...
1年前
0465
eset激活码及其使用教程分享-H5资源网

eset激活码及其使用教程分享

eset激活码怎么用?很多网友在安装了ESET NOD32杀毒软件后都需要eset激活码进行激活,但是不知道具体的操作方法,下面小编就将eset激活码及其使用教程分享出来,有需要的朋友可以参考。
1年前
02714
戴尔电脑重装系统教程图解-H5资源网

戴尔电脑重装系统教程图解

工具/原料: 系统版本:windows10系统 品牌型号:戴尔灵越15 软件版本:小鱼一键重装系统12.5.49.1870
1年前
0286
笔记本电脑怎么重装系统xp-H5资源网

笔记本电脑怎么重装系统xp

一些小伙伴反映自己的旧电脑上用的xp系统出现了问题,不能修复成功便想重装系统xp解决。那么具体笔记本电脑怎么重装系统xp呢?下面小编就教下大家简单的笔记本电脑怎么重装xp系统教程步骤。
1年前
02413
open是什么意思-H5资源网

open是什么意思

很多网友发现他们在使用电脑的过程中,经常会遇到open这个词,有的人不明白open到底是什么意思,下面小编就告诉大家open是什么意思。
1年前
02510
一键ok重装系统教程-H5资源网

一键ok重装系统教程

大家听说过一键ok重装系统吗?一键ok重装助手可以在不需要U盘或光盘的情况下,帮助用户在线一键重装系统,非常简单,没有电脑基础的用户也可以自己重装系统,下面小编就来演示下一键ok重装系统怎...
1年前
0377
常用的数据恢复工具有哪些-H5资源网

常用的数据恢复工具有哪些

最近有网友想了解常用的数据恢复工具有哪些,因为经常使用电脑等设备存储资料,备用一些常用的数据恢复工具可以防止资料丢失找不回的风险,下面小编就来为大家推荐常用的数据恢复工具有哪些。
12个月前
04614