HuggingFace系列 P1 社区简介及transformers安装

作者：陈华 • 发布时间：2022-07-07 • 阅读 11663

HuggingFace 是一家专注于自然语言处理（NLP）、人工智能和分布式系统的创业公司，创立于2016年。最早是主营业务是做闲聊机器人，2018年 Bert 发布之后，他们贡献了一个基于 Pytorch 的 Bert 预训练模型，即 pytorch-pretrained-bert，大受欢迎，进而将重心转向维护 NLP开源社区。

经过这几年的发展，HuggingFace 的开源社区，已经变成了最大的开源模型托管服务的平台，相当于人工智能界的 Github。

官网：https://huggingface.co

HuggingFace里有什么

Models：56000多个预训练模型，BERT、GPT等，甚至还有图像预训练模型。

Datasets：6900多个数据集，文本分类、问答语料等都有，遗憾的是中文的数据集很少。

HuggingFace 正确打开姿势，是当做工具来用，无需花时间系统了解，按需学习即可。

我们这课程，也是一个连载的状态，项目中需要用到某个模块或者数据集，才会针对性讲解某一块内容。大家有特别想了解的内容，也可以留言告诉我，我抽时间补充。

快速安装

transformers 是一个通用接口，Pytorch, Tensorflow2 都支持，相当于加载预训练模型的基座。

pip install transformers

加载预训练模型

transformers 模型管理的方式是，为每一个模型起一个唯一的短名，如果同时有配套的tokenizer模型，需要使用同名调用。

1、全局加载

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
model = AutoModel.from_pretrained('bert-base-chinese')

清华镜像：AutoModel.from_pretrained('bert-base-uncased', mirror='tuna', cache_dir='./huggingface')

2、指定路径加载

git lfs install
git clone https://huggingface.co/bert-base-chinese

有大文件，需要用 lfs

from transformers import BertModel, BertTokenizer
tokenizer = BertTokenizer.from_pretrained('./huggingface/bert-base-chinese')
model = BertModel.from_pretrained('./huggingface/bert-base-chinese')

Bert离线包，实在搞不定可以从这下载。

https://www.123pan.com/s/oQRtVv-9fl0A.html

本文链接：http://www.ichenhua.cn/edu/note/511

HuggingFace系列 P1 社区简介及transformers安装

HuggingFace系列 P1 社区简介及transformers安装

HuggingFace里有什么

快速安装

加载预训练模型

陈华编程

关于我们

合作平台

相关网站

联系我们