HuggingFace系列 P1 社区简介及transformers安装
HuggingFace 是一家专注于自然语言处理(NLP)、人工智能和分布式系统的创业公司,创立于2016年。最早是主营业务是做闲聊机器人,2018年 Bert 发布之后,他们贡献了一个基于 Pytorch 的 Bert 预训练模型,即 pytorch-pretrained-bert,大受欢迎,进而将重心转向维护 NLP开源社区。
经过这几年的发展,HuggingFace 的开源社区,已经变成了最大的开源模型托管服务的平台,相当于人工智能界的 Github。
HuggingFace里有什么
Models:56000多个预训练模型,BERT、GPT等,甚至还有图像预训练模型。
Datasets:6900多个数据集,文本分类、问答语料等都有,遗憾的是中文的数据集很少。
HuggingFace 正确打开姿势,是当做工具来用,无需花时间系统了解,按需学习即可。
我们这课程,也是一个连载的状态,项目中需要用到某个模块或者数据集,才会针对性讲解某一块内容。大家有特别想了解的内容,也可以留言告诉我,我抽时间补充。
快速安装
transformers 是一个通用接口,Pytorch, Tensorflow2 都支持,相当于加载预训练模型的基座。
pip install transformers
加载预训练模型
transformers 模型管理的方式是,为每一个模型起一个唯一的短名,如果同时有配套的tokenizer模型,需要使用同名调用。
1、全局加载
from transformers import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese') model = AutoModel.from_pretrained('bert-base-chinese')
清华镜像:AutoModel.from_pretrained('bert-base-uncased', mirror='tuna', cache_dir='./huggingface')
2、指定路径加载
git lfs install git clone https://huggingface.co/bert-base-chinese
有大文件,需要用 lfs
from transformers import BertModel, BertTokenizer tokenizer = BertTokenizer.from_pretrained('./huggingface/bert-base-chinese') model = BertModel.from_pretrained('./huggingface/bert-base-chinese')
Bert离线包,实在搞不定可以从这下载。
https://www.123pan.com/s/oQRtVv-9fl0A.html
本文链接:http://www.ichenhua.cn/edu/note/511
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!