Transformer P31 遗留Bug修复和数据集上传

作者：陈华 • 发布时间：2023-09-28 • 阅读 1193

前面课程中，我们已经把准备工作，都在本地做完了，接下来就是把数据和代码都传到 Kaggle 上，然后开始训练了。但是课前，我发现了一个遗留的 bug，这节课先修复这个bug，然后把数据集传到 Kaggle 上备用。

这个 bug 就是在自定义数据集上，预测结果特别离谱的原因，但幸好只是预测环节，对训练过程没有影响。

zh_id2vocab, zh_vocab2id  = get_vocab('zh')
en_vocab2id.get(v.lower(), UNK_ID)

1、register Kaggle：https://www.kaggle.com，注册验证码，需要科学上网。

2、Upload a Dataset：压缩文件 -> 上传。另外，给大家提供了一份更大的数据集，训练集17w、验证集2w、测试集5w，自己有机器的同学可以尝试。

3、New Notebook。

4、切换 GPU，没有验证手机号的，需要先验证手机号，并打开网络。

5、离线任务中途停止，和历史缓存数据下载。

import time

for i in range(100):
    time.sleep(5)
    with open(f'{i}.txt', 'w') as file:
        file.write(f'this is test file - range {i}')

好的，现在我们就把数据集传到了 Kaggle，并且设置好了 GPU 环境，接下来就可以迁移代码，然后训练模型了。