NLP入门(三)词形还原(Lemmatization)
文章目录
词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似。 简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同于词干提取(stemming),提取后的单词不一定会出现在单词中。比如,单词“cars”词形还原后的单词为“car”,单词“ate”词形还原后的单词为“eat”。 在Python的nltk模块中,使用WordNet为我们提供了稳健的词形还原的函数。如以下示例Python代码:
|
|
在以上代码中,wnl.lemmatize()函数可以进行词形还原,第一个参数为单词,第二个参数为该单词的词性,如名词,动词,形容词等,返回的结果为输入单词的词形还原后的结果。 词形还原一般是简单的,但具体我们在使用时,指定单词的词性很重要,不然词形还原可能效果不好,如以下代码
|
|
输出结果如下:
|
|
关于上述词性的说明,可以参考下表:
OK,知道了获取单词在句子中的词性,再结合词形还原,就能很好地完成词形还原功能。示例的Python代码如下:
|
|
输出结果如下:
|
|
输出的结果就是对句子中的单词进行词形还原后的结果。
文章作者 glin
上次更新 2020-09-08 01:37