LLM-RAG项目 P25 非结构化文本分割和片段入库
前面课程,处理好了 csv 和 excel 这类结构化文档,比较简单,一行作为一个片段就可以。这节课,我们来处理 word、pdf 这种非结构化的文档。非结构化的文档,没有特定的分割线,就按照最简单粗暴的方法,按字数进行拆分。
代码示例
1、文本分割函数
内容不可见,请联系管理员开通权限。
2、添加配置项
内容不可见,请联系管理员开通权限。
3、加载并分割文件
内容不可见,请联系管理员开通权限。
4、存储片段
内容不可见,请联系管理员开通权限。
好的,到目前为止,文档分割成片段的功能,就基本完成了。但是,还有一个问题,就是这个任务发起的方式不对,应该是在文档上传成功,就自动发起这个分割的任务。下节课,我们就来处理这个任务发起的功能。
本文链接:http://ichenhua.cn/edu/note/759
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!