当前位置：首页 > news >正文

RAG多层级语义分片实现方案

news 2026/6/27 15:36:29

在RAG知识库搭建过程中，文本分片质量直接决定检索精度与问答效果，传统固定长度分片极易割裂语义、拆分专业词汇。今天给大家分享一套实战性极强的工业级四层递进式语义分片方案，核心策略为：优先保全完整语义，逐级降级切割，默认分片阈值512字节，不开启任何分片重叠，完美适配企业知识库、技术文档、规范手册等各类文本场景。

实现方案

分片层级优先级：段落 → 句子 → 词语 → 字符（兜底降级）
固定生产参数：chunk_size = 512 字节，overlap = 0（无冗余重叠）

完整可运行 Python 代码

importre# ====================== 生产配置参数（固定）======================CHUNK_SIZE=512# 单分片最大512字节OVERLAP=0# 无重叠分片# ====================== 四层递进语义分片核心函数（修复版） ======================defmulti_level_chunk(text:str)->list[str]:""" 多层级语义分片｜工业生产方案 分片优先级：段落 => 句子 => 词语 => 字符兜底 核心特性：语义优先、逐级降级、严格512字节、0重叠、无空分片 """chunks=[]ifnottext:returnchunks# 第一层：按段落切割（优先保留完整段落）paragraphs=text.split("\n")forparainparagraphs:para=para.strip()ifnotpara:continue# 段落字节达标，直接入库para_bytes=len(para.encode("utf-8"))ifpara_bytes<=CHUNK_SIZE:chunks.append(para)continue# 第二层：段落超长，按完整句子切割sentence_parts=re.split(r"(。|！|？|；)",para)sen_list=[]# 重组标点，保证句子完整foridxinrange(0,len(sentence_parts),2):ifidx+1<len(sentence_parts):full_sen=(sentence_parts[idx]+sentence_parts[idx+1]).strip()else:full_sen=sentence_parts[idx].strip()iffull_sen:sen_list.append(full_sen)# 短句聚合，不截断单句current_chunk=""forseninsen_list:sen_bytes=len(sen.encode("utf-8"))merge_bytes=len((current_chunk+sen).encode("utf-8"))# 可以合并则合并ifmerge_bytes<=CHUNK_SIZE:current_chunk+=sencontinue# 存当前累积块ifcurrent_chunk:chunks.append(current_chunk)current_chunk=""# 单句超长：进入第三层词语拆分ifsen_bytes>CHUNK_SIZE:words=re.findall(r"[\u4e00-\u9fa5a-zA-Z0-9]+",sen)word_buf=""forwinwords:iflen((word_buf+w).encode("utf-8"))<=CHUNK_SIZE:word_buf+=welse:ifword_buf:chunks.append(word_buf)word_buf=w# 处理剩余词语ifword_buf:# 词语依旧超标：第四层字符兜底裁切iflen(word_buf.encode("utf-8"))>CHUNK_SIZE:raw=word_buf.encode("utf-8")foriinrange(0,len(raw),CHUNK_SIZE):sub=raw[i:i+CHUNK_SIZE]chunks.append(sub.decode("utf-8",errors="replace"))else:chunks.append(word_buf)else:chunks.append(sen)# 保存段落最后累积内容ifcurrent_chunk:chunks.append(current_chunk)# 最终过滤：清除空分片、纯空格分片final_chunks=[c.strip()forcinchunksifc.strip()]returnfinal_chunks# ====================== 调用示例 ======================if__name__=="__main__":test_text="""RAG知识库分片是提升检索精度的关键步骤。 传统固定长度分片容易切断语义，影响问答准确性。 本文实现一套段落、句子、词语、字符四级降级的语义分片策略，适配企业知识库生产落地。"""result=multi_level_chunk(test_text)foridx,chunkinenumerate(result):print(f"【分片{idx+1}】字节数：{len(chunk.encode('utf-8'))}")print(chunk)print("-"*80)