2003年,谷歌每天处理2亿次搜索请求,工程师们却在为同一件事头疼——用户搜"苹果"到底是要水果还是科技公司?当时的关键词匹配像瞎子摸象,把"苹果"和"苹果派"绑在一起,却漏掉了"iPhone"。
这个问题的解法,藏在一种叫向量化(vectorization)的技术里。简单说,就是把文字、图片、声音变成一串数字。不是随便的数字,是能被机器"理解"的数字。
从"苹果"到[0.21, 0.98, 0.45]:一场20年的翻译革命
人类读"king",脑子里会蹦出王室、权力、男性。机器呢?它只认二进制。向量化的本质,是给每个概念造一个多维坐标——"king"可能是[0.21, 0.98, 0.45, ...],"queen"是[0.23, 0.97, 0.44, ...]。两个向量的距离越近,语义越相关。
这套坐标系最狡猾的地方在于:它能捕捉人类自己都说不清的关联。"king"减"man"加"woman",结果向量会逼近"queen"。不是程序员写死的规则,是机器从海量文本里自己学出来的。
2013年谷歌发布Word2Vec论文时,这个发现让NLP(自然语言处理)圈子炸开了锅。之前 researchers 花十年手工编的语义网络,被一套无监督学习模型轻松碾压。
为什么你的推荐比你自己还懂你
Netflix的推荐系统有个公开的秘密:它不看你点了什么,看你"像"谁。每个用户是一个向量,每部电影也是一个向量。你们的向量夹角越小,系统越敢把《黑镜》推给刚看完《西部世界》的你。
这套机制背后,向量运算的速度是关键。传统做法用循环逐个处理数据,像一个人手工分拣快递。向量化之后,NumPy这类库能把计算扔给GPU并行处理,吞吐量提升几十倍。
具体有多快?一个百万维度的矩阵乘法,优化后的向量化实现能把时间从分钟级压到毫秒级。这种差距不是量变,是能不能实时响应的分水岭。
ChatGPT的底层语法:所有输入都是向量
大语言模型(LLM)的每一层,本质上都在做向量变换。你输入的句子先被切成token,每个token变成一个高维向量,然后在Transformer架构里被反复旋转、缩放、投影。所谓的"注意力机制",不过是计算向量之间的相似度权重。
这里有个反直觉的事实:模型从不"认识"文字。它只认识向量空间里的几何关系。"悲伤"和"快乐"对它来说,是两个方向相反的箭头;"巴黎"到"法国"的向量,和"东京"到"日本"的向量几乎平行。
这种表示法的威力在于通用性。同一份向量空间,可以同时承载文本、图像、音频——这就是多模态模型的基础。CLIP能把"一只猫在沙发上"的文本向量和对应图片的向量对齐,靠的不是理解,是几何。
向量化的五个段位:从词袋到嵌入
技术演进有过明显的代际划分。最早的词袋模型(Bag of Words)只管统计词频,"我爱你"和"你爱我"在它眼里完全一样——都是"我""爱""你"各出现一次。
TF-IDF加了权重,降低"的""是"这类高频词的干扰,但本质还是查表。真正的质变来自词嵌入(Word Embeddings):Word2Vec、GloVe、FastText,把每个词锚定在一个连续的语义空间里。
再往上是句嵌入(Sentence Embeddings)和文档嵌入。BERT的出现让"一词多义"有了解法——同一个"bank",在"river bank"和"bank account"里会激活不同的向量表示。
最新的趋势是上下文嵌入和多模态嵌入。OpenAI的text-embedding-3系列能把文本压缩到几百维,同时保留跨语言的语义对齐。你搜"如何修自行车",系统能召回"单车故障排查"的中文文档,靠的是向量空间的语言无关性。
搜索、推荐、RAG:向量数据库的战场
2023年向量数据库赛道突然拥挤。Pinecone、Weaviate、Milvus、Qdrant,加上传统数据库的向量扩展(PostgreSQL的pgvector、Redis的RediSearch),都在抢同一个场景:近似最近邻搜索(ANN)。
RAG(检索增强生成)架构的爆发是催化剂。大模型有幻觉、知识截止、无法访问私有数据,解决思路很简单——先把企业文档向量化存进数据库,用户提问时先检索相关片段,再塞进prompt当上下文。向量相似度搜索,就是这个流程的瓶颈环节。
一个具体的性能指标:Milvus声称能在十亿级向量数据集上做到毫秒级查询延迟。这意味着什么?你可以实时比对用户上传的照片和全网图库,或者让客服机器人在几毫秒内从十万份产品手册里找到答案。
但向量检索有代价。高维空间的"维度灾难"让精确搜索变得不可行,所有人都靠近似算法 trade-off 精度换速度。IVF、HNSW、PQ,这些缩写背后是无数工程师调参的深夜。
向量化的故事远没结束。下一代模型正在压缩向量维度、提升跨模态对齐精度、降低推理成本。一个悬而未决的问题是:当所有数据都变成向量,隐私和可解释性怎么保证?你的医疗记录、财务数据、聊天记录,本质上都是高维空间里的一个点——足够接近,就能被推测出来。
如果未来的AI助手能把你过去十年的邮件向量化,然后回答"我三年前那个项目的合作方是谁",你会让它这么做吗?
热门跟贴