独家｜轻松上手，通过微调Transformers完成命名实体识别任务

时间：2021-03-31 19:23:35

　　校对：和中华

　　本文约2500字，建议阅读7分钟

　　本文基于丹麦团队研发的Python开源包NERDA演示了如何通过简单微调BERT Transformer来处理NER任务。

照片源自Pixabay，作者vinsky2002

　　在本文中，我们将介绍如何通过简单微调（fine-tune）任意预训练的（pretrained）自然语言处理transformer，来完成任意语言中的命名实体识别（Named-Entity Recognition, NER）任务。

　　为什么这个话题值得你关注？因为NER是一项强大的自然语言处理任务，在诸多领域都有实际应用，在Towards Data Science之前的帖子中已有详细介绍。然而要想得到不错的NER模型效果，通常需要基于预训练的transformer对NER模型进行特定语言或领域的微调，这在计算资源有限的情况下，是比较可行的办法，而且能看到实际效果。

　　为了展示如何做到，我们使用python的NERDA包调用BERT transformer对NER模型进行微调。

　　NERDA是一套通用的NER系统，可用于以最少的代码量对任意语言的NER任务和任意transformer进行微调。

　　命名实体识别简介

　　如果你还不熟悉NER，请查看维基百科上的定义：

　　命名实体识别（也称（命名）实体标识，实体片取或实体提取）是用于信息提取的自然语言处理子任务，旨在将非结构化文本中提到的命名实体定位并分到预定义的类别，例如人名，组织机构名，地名，医疗代码，时间，数量，货币值，百分比等。

　　我们可以通过一个NER任务的例子来作进一步解释。

　　任务：在文本中标识人名和组织机构名：

　　Jim bought 300 shares of Acme Corp.

　　解答：人名：'Jim'，组织机构名：'Acme Corp.'

　　若你想获得本文中提到的其他概念和技术的介绍，请移步文末“参考资料”部分，那里我们列了许多Towards Data Science先前的帖子。

　　工具箱

　　现在，我们要实际上手为NER微调transformer了。

　　无论你选择哪一种transformer和目标语言，我们这里介绍的步骤都是通用的。

　　我们将利用python的NERDA包来完成这项工作。

　　“NERDA” Python包的官方徽标，由Ekstra Bladet新闻提供

　　NERDA拥有为NER任务进行transformers微调的易用接口。它基于流行的机器学习框架PyTorch和Hugging Face transformers。

　　NERDA是开源的，可在Python Package Index（PyPI）上获得。它可通过如下方式安装：

　　数据集

　　我们将使用带有NER标注的CoNLL-2003英文数据集来训练和验证我们的模型。

　　首先，我们下载数据集并加载预定义且拆分过的训练数据和验证数据。

　　CoNLL-2003使用以下类型的命名实体（相当标准的类别）进行操作：

　　1. 人名（PER）

　　2. 组织机构名（ORG）

　　3. 地名（LOC）

　　4. 其他（MISC）

　　5. 未命名实体（O）

　　CoNLL-2003数据集中的每一条观测值都是一个经过分词的句子，每个分词都带有一个命名实体标签。

　　下面，你将看到CoNLL数据集中随机取出的一个句子示例，同时列出了其分词与对应的命名实体标签（[标签]）。

　　数据集采用了IOB标注方式。

　　IOB标注法的意思是，以'B-'标记命名实体开头的单词，以'I-'标记命名实体中间的单词。

　　在上面的示例中，“Germany”标记为地名（LOC），“European Union”标记为组织机构名（ORG），“ Werner Zwingmann”标识为人名（PER）。

　　建模

　　第一步，我们为任务指定可用的NER标签（不包括特殊的O（Outside，表示不在短语中）标签）。

　　接下来，我们必须做出选择，要微调Hugging Face上众多transformers中的哪一个。这里我们以uncased multilingual BERT transformer为例（常见选择之一）。

　　同时，我们为网络层及模型训练本身提供一套基本的超参数配置。

　　整合

　　现在，使用NERDA模型接口将各个部分整合到一个完整的模型配置中。

　　在底层NERDA实现了一个torch神经网络，该神经网络建立在所选的transformer（在本例中为BERT）上。默认情况下，网络架构将类似于Hvingelby等人2020年发表的论文中提出的模型之一。（如果你愿意，也可以提出自己的网络架构）。

　　为了训练模型并微调BERT transformer，接下来唯一要做的就是调用train方法。

　　注意：这将花上一些时间，具体取决于特征的维度（如果你想略过模型训练，则可以直接使用NERDA中提供的预训练模型）。

　　到这就大功告成了。现在，我们已经为NER微调了属于自己的一个基于BERT的最优效果 (state-of-the-art)模型。

　　让我们看看该模型在独立测试集上的表现（通过F1得分评估）。

　　“ AVG_MICRO”：跨实体标签的F1分数的微平均值（micro-averaged F1-score）。

　　如你所见，模型表现看起来很棒。

　　现在，我们可以使用该模型来识别新文本中的命名实体，例如：

　　该模型（正确地）将“ Cristiano Ronaldo”（足球运动员）标识为人名，并将“ Juventus FC”（足球俱乐部）标识为组织机构名。

　　微调任意Transformer

　　Hugging Face上目前已提供了超过5000种transformer模型。那么你应该微调哪一个呢？我们不想让你失望，但答案是：这要视情况而定。天下没有免费的午餐。Transformer模型都有各自的优缺点。此外，当你挑选transformer的时候，也要相应照顾到到计算资源的预算，和节能环保的意识。

　　如前所述，BERT通常是一个不错的选择。但是，与BERT相比，后起之秀ELECTRA则轻巧许多，计算效率更高，并且在NER任务上仍然表现出色。

　　无论你选择哪种transformer，NERDA都提供支持。在上面的代码示例中，如果想要把transformer从BERT改成ELECTRA，只需要更改transformer参数，即：

　　微调任意语言

　　NERDA可以用于微调任意语言的transformer，比如使用你自己的数据集。为了微调NER中丹麦语的transformer，我们可以利用DaNE数据集，该数据集由带有NER注释的丹麦语句子组成。

　　为实现此目的，你只需要在前一个代码示例中做出非常简单的改变：

　　如果你没有任何（或是还不够）所需语言的经过NER标注的训练数据，那么你可以利用doccano之类的工具来批量标注新文本。

　　出乎意料的是，NERDA对特定语言的微调并不需要你想像那么多的带标注的数据，因为NERDA可以利用transformer中已经存在的知识。例如，丹麦NER数据集DaNE包含的句子虽不超过5500个，却足以训练NERDA模型，性能还不错。

　　关于NERDA

　　NERDA是丹麦小报Ekstra Bladet在“新闻智能平台（PIN）”开发活动中的一部分成果。PIN是一个业界研究项目，合作方包括丹麦技术大学，哥本哈根大学和哥本哈根商学院，获得了丹麦创新基金的资助。该项目的起止时间为2020年至2023年，用于研发新闻发布的推荐系统和自然语言处理系统，其部分研究成果已开源，如NERDA。

　　原文标题：

　　Easy Fine-Tuning of Transformers for Named-Entity Recognition

　　https://towardsdatascience.com/easy-fine-tuning-of-transformers-for-named-entity-recognition-d72f2b5340e3

　　参考资料：

　　https://github.com/ebanalyse/NERDA

　　https://huggingface.co/

　　https://pytorch.org/

　　https://github.com/google-research/bert

　　“DaNE: A Named Entity Ressource for Danish”, Hvingelby et. al (2020)：http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.565.pdf

　　https://github.com/google-research/electra

　　https://towardsdatascience.com/what-are-transformers-and-how-can-you-use-them-f7ccd546071a

　　https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270

　　https://towardsdatascience.com/understanding-electra-and-training-an-electra-language-model-3d33e3a9660d

免责声明：本文仅代表作者或其来源网站个人观点，不代表本网站的观点和立场，与本网站无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如因作品内容侵权需删除与其他问题需要同本网联系的，请在30日内通过本网的邮箱或电话联系。

来源: 腾讯新闻　　作者: 　　编辑: 余仁俊