HuggingFace 是一家专注于自然语言处理(NLP)、人工智能和分布式系统的创业公司,创立于2016年。最早是主营业务是做闲聊机器人,2018年 Bert 发布之后,他们贡献了一个基于 Pytorch 的 Bert 预训练模型,即 pytorch-pretrained-bert,大受欢迎,进而将重心转向维护 NLP开源社区。

经过这几年的发展,HuggingFace 的开源社区,已经变成了最大的开源模型托管服务的平台,相当于人工智能界的 Github。

官网:https://huggingface.co

HuggingFace里有什么

Models:56000多个预训练模型,BERT、GPT等,甚至还有图像预训练模型。

Datasets:6900多个数据集,文本分类、问答语料等都有,遗憾的是中文的数据集很少。

HuggingFace 正确打开姿势,是当做工具来用,无需花时间系统了解,按需学习即可。

我们这课程,也是一个连载的状态,项目中需要用到某个模块或者数据集,才会针对性讲解某一块内容。大家有特别想了解的内容,也可以留言告诉我,我抽时间补充。

快速安装

transformers 是一个通用接口,Pytorch, Tensorflow2 都支持,相当于加载预训练模型的基座。

pip install transformers

加载预训练模型

transformers 模型管理的方式是,为每一个模型起一个唯一的短名,如果同时有配套的tokenizer模型,需要使用同名调用。

1、全局加载

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
model = AutoModel.from_pretrained('bert-base-chinese')

清华镜像:AutoModel.from_pretrained('bert-base-uncased', mirror='tuna', cache_dir='./huggingface')

2、指定路径加载

git lfs install
git clone https://huggingface.co/bert-base-chinese

有大文件,需要用 lfs

from transformers import BertModel, BertTokenizer
tokenizer = BertTokenizer.from_pretrained('./huggingface/bert-base-chinese')
model = BertModel.from_pretrained('./huggingface/bert-base-chinese')

Bert离线包,实在搞不定可以从这下载。

https://www.123pan.com/s/oQRtVv-9fl0A.html

本文链接:http://www.ichenhua.cn/edu/note/511

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!