Transformer P20 Dataset类加载数据集
前面课程中,搞定了分词和转 ID 的过程,接下来就可以加载数据集了。还是老办法,用 Dataset 和 DataLoader 这两个类,来完成数据集的处理和加载过程。
代码示例
1、创建文件
内容不可见,请联系管理员开通权限。
2、加载数据集
内容不可见,请联系管理员开通权限。
3、单条数据 tokenizer
英文翻译成中文,所以 en_text 是 source,zh_text 是 target,做中文翻译成英文,反过来即可。返回 zh_text 是用于后续做模型评估。
内容不可见,请联系管理员开通权限。
4、调用测试
直接调用会报错,因为 get_item 返回的不是 tensor 结构,下节课处理。
内容不可见,请联系管理员开通权限。
这节课主要讲解数据集的加载,和句子的 Tokenizer 过程,但是 get_item 方法返回的数据不是 tensor,所以下节课我们还需要处理一下 batch 数据。
本文链接:http://ichenhua.cn/edu/note/667
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!