文本嵌入(Text Embedding)是自然语言处理中的一个重要概念,它的目标是将文本中的词表示成固定长度的稠密向量,也称为词向量(Word Vector)。这样每个词都可以用一个连续的、低维的稠密向量来表示,比如200-300维。
M3E 是 Moka Massive Mixed Embedding 的缩写,M3E模型是文本嵌入模型(Embedding),可以将自然语言转换成稠密的向量,主要用于计算文本向量。
OpenAI 的文本嵌入模型可以计算文本字符串的特征向量,通过向量计算字符串之间的语义相关性。
Text2vec: Text to Vector, Get Sentence Embeddings. 文本向量化,把文本(包括词、句子、段落)计算为特征向量。
智源发布最强开源可商用中英文语义向量模型BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型,如OpenAI 的text embedding 002等。此外,BGE 保持了同等参数量级模型中的最小向量维度,使用成本更低。