3 篇博文含有标签「RAG」

检索增强生成

OKF 与 LLM Wiki 深度解析：从知识库到可编译知识操作系统

2026年6月19日 · 阅读需 29 分钟

雨落无声，代码成诗 —— 致力于技术与艺术的极致平衡

LLM Wiki 不是“给大模型看的百科页面”，而是把组织知识编译成一种人能读、机器能检索、Agent 能遍历、系统能验证的长期知识结构。

先澄清一个容易混淆的点：OKF 在开放知识领域通常指 Open Knowledge Foundation；而本文讨论的 OKF 是面向 LLM Wiki 的 Open Knowledge Format，可以理解为一种工程规范提案，用来约束 AI 原生知识库的目录、页面、元数据、引用、链接、校验和演进方式。

截至 2026-06-19，LLM Wiki 更像一个快速成型的系统范式，而不是已经被 W3C、ISO 或某个基金会正式标准化的协议。腾讯研究者在 2026 年 5 月的 LLM-Wiki 论文中，把它描述为一种“Retrieval as Reasoning”的检索范式：把原始文档编译成结构化 Wiki 页面，提供搜索、阅读和链接跟随工具，并用 Error Book 记录和修复知识构建错误。本文的 OKF 则是在这个方向上给出一套更可落地的格式规范。

RAG 核心基建：文本 Chunk 策略全景解析（从固定切片到 VLM 端到端解析）

2026年3月5日 · 阅读需 31 分钟

Rainy

雨落无声，代码成诗 —— 致力于技术与艺术的极致平衡

"To chunk, or not to chunk — that is the question. But how to chunk is the engineering battle."

在 RAG（检索增强生成）系统中，分块（Chunking）是整个 Pipeline 的地基。检索质量上限由 Embedding 模型决定，下限却由分块质量决定。无论你使用多么强大的 LLM 或向量数据库，一旦 Chunk 切错了位置、割裂了语义，后续所有优化都是徒劳。

本文将带你由浅入深地走完整条 Chunk 技术发展路线图——从最原始的固定切片，一路升级到 VLM 端到端文档理解。

构建类 NotebookLM 的智能笔记系统：基于 Rust 的高性能 RAG 架构

2026年2月13日 · 阅读需 34 分钟

Rainy

雨落无声，代码成诗 —— 致力于技术与艺术的极致平衡

"The best notebook is not just a place to store information, but a thinking partner that understands context and helps you reason."

Google NotebookLM 展示了 AI 如何革新我们的知识管理方式。本文将详细设计一个开源替代方案，使用现代化技术栈构建一个高性能、可扩展、生产级的智能笔记系统。