如何解决Qdrant性能瓶颈以提升向量数据库的QPS？

文章导航

文本嵌入(embedding)现在是一门比较火爆的技术。在nlp的领域中，将文本embedding成向量后，通过向量的相似度检索能够比较高效的实现文本相似度匹配或者语义识别。

其中实现向量相似度检索的高效组件就是向量数据库。目前市面上有很多不同种类的向量数据库实现，比如：pgvector、redis、qdrant等等。本文记录了qdrant的一些初步探索过程和其性能上的障碍。

集群模式：2台8c16g 2节点cluster，qdrant版本：v1.7.3

qdrant默认为每个请求做最快的响应，server端退化成了串行处理。猜测可能是遇到耗时稍久一点的查询，导致后续后多请求排队超时【猜测超时未取消排队？】排队越堵越多，导致业务响应不可用。

计算资源被重复使用，一个请求挤占了双份的计算资源，所以qps下降一半。

不能调整read_fan_out_factor成只用一个副本计算。

collection创建时指定

影响qps的关键参数，默认和cpu核数一致。如果业务需要高qps吞吐，强烈建议不要使用默认值！可以设置成2。

感觉qdrant为单个响应更快做了更多的考虑，对于需要高qps吞吐的业务，谨慎设置副本。【副本又是高可用的前提】

qdrant集群模式，读写发生在任意节点均可，集群内部做同步。如果使用cluster模式，建议做一层slb，业务指向slb地址，可以有效的做到入口均衡。

延展阅读：

Mongo性能优化实战：如何通过WiredTiger引擎提升MongoDB的性能和数据安全性