跳到主要内容

2 篇博文 含有标签「Python」

Python 编程语言

查看所有标签

RAG 核心基建:文本 Chunk 策略全景解析(从固定切片到 VLM 端到端解析)

· 阅读需 31 分钟
Rainy
雨落无声,代码成诗 —— 致力于技术与艺术的极致平衡

"To chunk, or not to chunk — that is the question. But how to chunk is the engineering battle."

在 RAG(检索增强生成)系统中,分块(Chunking)是整个 Pipeline 的地基。检索质量上限由 Embedding 模型决定,下限却由分块质量决定。无论你使用多么强大的 LLM 或 向量数据库,一旦 Chunk 切错了位置、割裂了语义,后续所有优化都是徒劳。

本文将带你由浅入深地走完整条 Chunk 技术发展路线图——从最原始的固定切片,一路升级到 VLM 端到端文档理解。

图算法全景指南:从基础理论到分布式图数据库实战

· 阅读需 15 分钟
Rainy
雨落无声,代码成诗 —— 致力于技术与艺术的极致平衡

图(Graph)不仅仅是一种数据结构,更是一种看待世界联系的思维方式。在海量数据的今天,简单的关系型数据库已难以应对复杂的关联查询。

本文旨在重塑你对图算法的认知。我们采用渐进式深度的设计,从最直观的遍历开始,逐步深入到复杂的结构分析,并最终探讨工业级的图存储方案。