小昇的博客

Stay hungry, Stay foolish

运用 BERT 的 MLM 模型进行小样本学习

从 PET 到 P-tuning

转载自《必须要GPT3吗?不,BERT的MLM模型也能小样本学习》和《P-tuning:自动构建模版,释放语言模型潜能》,作者:苏剑林,部分内容有修改。 大家都知道现在 GPT3 风头正盛,然而,到处都是 GPT3、GPT3 地推,读者是否记得 GPT3 论文的名字呢?事实上,GPT3 的论文叫做《Language Models are Few-Shot Learners》,标题里...

GlobalPointer:用统一的方式处理嵌套和非嵌套NER

更漂亮、更快速、更强大

本文将介绍一个称为 GlobalPointer 的设计,它利用全局归一化的思路来进行命名实体识别 (NER),可以无差别地识别嵌套实体和非嵌套实体,在非嵌套 (Flat NER) 的情形下它能取得媲美 CRF 的效果,而在嵌套 (Nested NER) 情形它也有不错的效果。还有,在理论上,GlobalPointer 的设计思想就比 CRF 更合理;而在实践上,它训练的时候不需要像 CRF ...

将“softmax+交叉熵”推广到多标签分类问题

媲美精调权重下的二分类方案

转载自《将“softmax+交叉熵”推广到多标签分类问题》,作者:苏剑林。 一般来说,在处理常规的多分类问题时,我们会在模型的最后用一个全连接层输出每个类的分数,然后用 softmax 激活并用交叉熵作为损失函数。在这篇文章里,我们尝试将“softmax+交叉熵”方案推广到多标签分类场景,希望能得到用于多标签分类任务的、不需要特别调整类权重和阈值的 loss。 类别不平衡 ...

Transformer 位置编码

Transformer 升级之路

转载自《让研究人员绞尽脑汁的Transformer位置编码》和《Transformer升级之路:2、博采众长的旋转式位置编码》,作者:苏剑林,部分内容有修改。 不同于 RNN、CNN 等模型,对于 Transformer 模型来说,位置编码的加入是必不可少的,因为纯粹的 Attention 模块是无法捕捉输入顺序的,即无法区分不同位置的 Token。为此我们大体有两个选择:1、想办...

将 PyTorch 版 bin 模型转换成 Tensorflow 版 ckpt

Pytorch bin to Tensorflow checkpoint

最近由于工作上的需求,需要使用Tensorflow加载语言模型 SpanBERT(Facebook 发布的 BERT 模型的变体),但是作者只发布了 Pytorch 版的预训练权重,因此需要将其转换为 Tensorflow 可以加载的 checkpoint。 在 Pytorch 框架下,大多数开发者使用 Huggingface 发布的 Transformers 工具来加载语言模型,它同时支...

改变世界的25天:新冠疫情是如何在中国失控的?

科学只能实事求是,不能明哲保身

转载自纽约时报《25 DAYS THAT CHANGED THE WORLD: HOW COVID-19 SLIPPED CHINA’S GRASP》,作者:Chris Buckley, David D. Kirkpatrick, Amy Qin and Javier C. Hernández。 中国最著名的医生正在执行一项紧急任务。 现年84岁的钟南山博士接到命令赶往中部城市武...

文本生成评估方法简介

用Python计算文本BLEU分数和ROUGE值

文本生成是自然语言处理 (NLP) 中常见的一类任务,例如机器翻译、自动摘要、图片标题生成等等。如何评估生成文本的质量,或者说衡量生成文本与参考文本之间的差异,是一个必须考虑的问题。目前比较常见的评估方法就是计算 $\text{BLEU}$ 分数和 $\text{ROUGE}$ 值。 BLEU $\text{BLEU}$ (Bilingual Evaluation Understudy,...

Seq2Seq 中 Exposure Bias 现象的浅析与对策

最优序列并不一定是目标序列

转载自《Seq2Seq中Exposure Bias现象的浅析与对策》,作者:苏剑林,部分内容有修改。 Seq2Seq 模型的典型训练方案 Teacher Forcing 是一个局部归一化模型,它存在着局部归一化所带来的毛病——也就是我们经常说的“Exposure Bias”。 经典的 Seq2Seq 模型图示 本文算是一篇进阶文章,适合对 Seq2Seq 模型已经有一定的了...

CRF or MEMM?

CRF 用过了,不妨再了解下更快的 MEMM

转载自《简明条件随机场CRF介绍(附带纯Keras实现)》和《CRF用过了,不妨再了解下更快的MEMM?》,作者:苏剑林,部分内容有修改。 HMM、MEMM、CRF 被称为是三大经典概率图模型,在深度学习之前的机器学习时代,它们被广泛用于各种序列标注相关的任务中。一个有趣的现象是,到了深度学习时代,HMM 和 MEMM 似乎都“没落”了,舞台上就只留下 CRF。相信做 NLP 的读...

浅谈泛化性

从随机噪声、对抗训练到梯度惩罚

转载自《对抗训练浅谈:意义、方法和思考(附Keras实现)》 和《泛化性乱弹:从随机噪声、梯度惩罚到虚拟对抗训练》,作者:苏剑林。 提高模型的泛化性能是机器学习致力追求的目标之一。常见的提高泛化性的方法主要有两种: 第一种是添加噪声,比如往输入添加高斯噪声、中间层增加 Dropout 以及对抗训练等,对图像进行随机平移缩放等数据扩增手段某种意义上也属于此列; 第二种是往...