前面课程中,我们已经把准备工作,都在本地做完了,接下来就是把数据和代码都传到 Kaggle 上,然后开始训练了。但是课前,我发现了一个遗留的 bug,这节课先修复这个bug,然后把数据集传到 Kaggle 上备用。

Bug修复

这个 bug 就是在自定义数据集上,预测结果特别离谱的原因,但幸好只是预测环节,对训练过程没有影响。

zh_id2vocab, zh_vocab2id  = get_vocab('zh')
en_vocab2id.get(v.lower(), UNK_ID)

Kaggle训练流程

1、register Kaggle:https://www.kaggle.com,注册验证码,需要科学上网。

2、Upload a Dataset:压缩文件 -> 上传。另外,给大家提供了一份更大的数据集,训练集17w、验证集2w、测试集5w,自己有机器的同学可以尝试。

3、New Notebook。

4、切换 GPU,没有验证手机号的,需要先验证手机号,并打开网络。

5、离线任务中途停止,和历史缓存数据下载。

import time

for i in range(100):
    time.sleep(5)
    with open(f'{i}.txt', 'w') as file:
        file.write(f'this is test file - range {i}')

好的,现在我们就把数据集传到了 Kaggle,并且设置好了 GPU 环境,接下来就可以迁移代码,然后训练模型了。

本文链接:http://ichenhua.cn/edu/note/678

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!