LLM-RAG项目 P24 文本分割命令和处理表格数据
前面课程,已经完成了页面的文档上传功能,那接下来就要进行后台处理。因为用户上传的文件,可能内容会很多,在文档问答的时候,只需要检索最相关的几个片段就可以了,所以上传文件之后,需要在后台进行分割之后,存储成片段,供后面的对话流程检索。
代码示例
1、新建自定义命令
分割任务是一个异步任务,目前还没学到,我们先用自定义命令,这种简单的方式做调试,调好之后再改成异步任务。
内容不可见,请联系管理员开通权限。
2、读取文件路径
这里我们模拟的是文件上传之后,通过id去处理对应文件。
内容不可见,请联系管理员开通权限。
3、按类型处理文件
文件类型比较多,避免混淆,每一种类型定义一个函数去处理。
内容不可见,请联系管理员开通权限。
4、按行处理csv和excel文件
在以上类型中,结构比较清晰的就是表格数据,我们把表格的每一行,跟表头进行拼接,作为一个完整的片段。
内容不可见,请联系管理员开通权限。
下节课,要处理pdf、word这种非结构化的文档,会稍微麻烦一点。
本文链接:http://ichenhua.cn/edu/note/758
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!