前面课程中,我们基于文本语料,完成了问答场景的功能,但是,用的是文本语料的方式,定义的语料库。在实际项目中,文本定义语料库的方式,还是比较少见的,只是方便大家理解。

这节课,就来介绍几种更常规的格式,比如 pdf、csv、txt 这些。加载很简单,主要是类似 txt 这种文本,加载进来之后,还需要做一下分割,比如用 txt 文件存了一篇小说,不分割就太长了。

代码示例

1、加载CSV文档

内容不可见,请联系管理员开通权限。

2、加载其他类型文档

内容不可见,请联系管理员开通权限。

3、文件加载和分割

分割时,需要指定分割的 chunk 长度,和重叠部分的长度,适当的 chunk 大小和重叠,可以提升处理长文本的流畅性和连贯性。

内容不可见,请联系管理员开通权限。

文件加载并且分割完之后,就跟之前用文本创建的语料结构一样了,一个 list 包裹多个 Document 的形式,接下来,就可以针对这个文档做问答了。虽然前面讲过了,我们还是有始有终,下节课,带大家把后面的问答流程做完。

本文链接:http://ichenhua.cn/edu/note/699

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!