项目背景
企业内部文档散落在多个系统,员工查找信息效率极低。构建了一套 RAG 问答系统,让员工用自然语言查询内部知识库。
核心功能
- 文档解析:支持 PDF、Word、Markdown、HTML 等格式
- 混合检索:向量检索 + BM25 倒排索引 + RRF 融合排序
- Cross-encoder Reranker 对召回结果重排序,准确率提升 30%
- 流式响应,首字符延迟 < 500ms
- 全链路可观测:LangFuse 追踪每次 LLM 调用
性能指标
| 指标 | 数值 |
|---|---|
| 答案忠实度 (Faithfulness) | 87% |
| 召回准确率 (Recall@5) | 91% |
| P90 端到端延迟 | 2.8s |
| 日均 QPS | 200+ |
技术挑战
多轮对话的 token 管理:通过动态历史压缩策略,在不超出 context 限制的前提下保持对话连贯性。