您好,欢迎来到微智科技网。
搜索
您的当前位置:首页NLP-transformer学习:(1)transformer基础

NLP-transformer学习:(1)transformer基础

来源:微智科技网

NLP-transformer学习:(1)transformer基础


学习内容:


1 transformer 地址:

transformer 目前已经被高度开发,大家用的最方便的包是这个 hugface的。
https://github.com/huggingface/transformers/blob/main/README_zh-hans.md

2 基础知识:

2.1 关键词汇

(1) sentiment-analysis 情感分析:分析给定的文本的情感极性
(2) text-generation 文本生成:根据给定的文本生成文本
(3) ner 命名实体识别:标记句子中的实体
(4) question-answering 阅读理解:给定上下文,根据上下文抽取答案
(5) fill-maks 掩码填充:天成给定文本的掩码
(6) summarization 文本摘要:
(7) translation 机器翻译:
(8) feature-extraction 特征提取:生成给定文本的张量表示
(9) conversional 对话机器人:根据用户输入文本,产生回应,与用户对话
这里有个干货网址:在用gpt翻译前可以用下:
https:///ChenVast/article/details/80719747

2.2 NLP的几个阶段

阶段1:统计模型+ 数据
example:决策树,SVM,HMM,CRF, TF-IDF,BOW
阶段2:神经网络 + 数据
example:Linear,CNN,RNN,LSTM,transformer,Word2vec, Glove
阶段3:神经网络 + 预训练模型 + (少量)数据
example:GPT,BERT,RoBERTa,ALBERT,BART,T5
阶段4:神经网络 + 更大的预训练模型 + Prompt
example:ChatGPT,Bloom,LLaMA,AIpaca,Vicuna,MOSS,文心一言,通义千问,星火(科大讯飞),KimiChat

2.3 transformer的几个重要的库

Transformers: 核心库,包含了模型加载/训练/流水线(pipline)
Tokenizer:分词器,对数据进行预处理,text(文本)到词素(token)序列的互相转换
Datasets:数据集,提供了数据的加载和处理方法,加载一些公开数据集
Evaluate:前向函数或评估函数,就是一般的前向推导
PEFT(parameter efficient tunning): 高效的微调模型库,提供高校的微调方法,训练一小部分参数去撬动打模型
Accelerate: 分布式训练,包括多卡方案
Optimum:加速优化库,主要是适配多种后端,例如Open Vino 或者 Onnxruntime
Gradio: 额可视化不书库,用于算法演示

2.4 做好的基础环境

链接是笔者做好的一个配置好相关pytorch环境的ubuntu conda环境:
笔者的GPU数量1:4070ti

2.5 学习代码

# import gradio package 
import gradio as gr
# import transofrmer package
from transformers import pipeline
gr.Interface.from_pipeline(pipeline("question-answering", model="uer/roberta-base-chinese-extractive-qa")).launch()

小式牛刀:

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务