word2vec训练中文模型—wiki百科中文库

词向量作为文本的基本结构——词的模型。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起，这对后续的文本分类，文本聚类等等操作提供了便利，这里简单介绍词向量的训练，主要是记录学习模型和词向量的保存及一些函数用法。

1.准备数据与预处理

注意事项：请将内存最好选择8g及以上的电脑，否则可能卡顿，并在开始时候安装好python的使用环境，不仅是python 的安装，最好还有就是安装好Anaconda3，修改相关的系统环境PATH变量，并且如果原先有python的路径去掉。并且还要安装好相关的gensim等库，具体参看本地文件“windowslinux 安装gensim简易方法”。

首先需要一份比较大的中文语料数据，可以考虑中文的维基百科（也可以试试搜狗的新闻语料库）。中文维基百科的打包文件地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 这个下载可能会比较慢，有需要的可以加微信发网盘链接。

中文维基百科的数据不是太大，xml的压缩文件大约1G左右。首先用 process_wiki_data.py处理这个XML压缩文件，执行

1

pythonprocess_wiki_data.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.txt

其中，process_wiki_data.py代码如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


#!/usr/bin/env python
# -*- coding: utf-8 -*-
import logging
import os.path
import sys
from gensim.corpora import WikiCorpus
if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))
    # check and process input arguments
    if len(sys.argv) < 3:
        print ( globals()['__doc__'] % locals() )
        sys.exit(1)
    inp, outp = sys.argv[1:3]
    space = " "
    i = 0
output = open(outp, 'w',encoding='utf-8')
#这里网络上的内容是不正确，自己运行的时候都是报编码错误，具体可本地帮助文档
#Python UnicodeEncodeError 'gbk' codec can't encode character 解决方法
    wiki = WikiCorpus(inp, lemmatize=False, dictionary={})
    for text in wiki.get_texts():
        output.write(space.join(text) + "\n")
        i = i + 1
        if (i % 10000 == 0):
            logger.info("Saved " + str(i) + " articles")
    output.close()
    logger.info("Finished Saved " + str(i) + " articles")

得到结果信息如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


2017-11-20 11:03:29,427: INFO: Saved 10000 articles
2017-11-20 11:04:08,134: INFO: Saved 20000 articles
2017-11-20 11:04:43,148: INFO: Saved 30000 articles
……
2017-11-20 11:26:59,867: INFO: Saved 280000 articles
2017-11-20 11:27:55,025: INFO: Saved 290000 articles
2017-11-20 11:28:56,531: INFO: Saved 300000 articles
2017-11-20 11:29:06,494: INFO: finished iterating over Wikipedia corpus of 30173
2 documents with 68023327 positions (total 3037547 articles, 81054190 positions
before pruning articles shorter than 50 words)
2017-11-20 11:29:06,640: INFO: Finished Saved 301732 articles

2. 使用opencc进行将wiki.zh.txt中的所有繁体字转换为简体字

2.1 中文繁体替换成简体

Wiki中文语料中包含了很多繁体字，需要转成简体字再进行处理，这里使用到了OpenCC工具进行转换。

（由于网上的实践python的jieba的完成分词操作的代码的不熟悉，所以采用了是opencc先进行的对于wiki.zh.txt进行繁体字与简体字的进一步的预先处理，将所有的繁体字转换成简体字）

（1）安装OpenCC

到以下链接地址下载对应版本的OpenCC，本人下载的版本是opencc-1.0.1-win64.7z。 https://bintray.com/package/files/byvoid/opencc/OpenCC 另外，资料显示还有python版本的，使用pip install opencc-python进行安装，未实践不做赘述。（2）使用OpenCC进行繁简转换进入解压后的opencc的目录（opencc-1.0.1-win64），双击打开opencc.exe文件。将wiki.zh.txt文件复制黏贴放在opencc目录中，打开dos窗口（Shift+鼠标右键->在此处打开命令窗口），输入如下命令行

1

opencc -i wiki.zh.txt -o wiki.zh.simp.txt -c t2s.json

则会得到文件wiki.zh.simp.txt，即转成了简体的中文。

得到大约是998mb的wiki.zh.simp.txt文件，将其再是剪切放回到原先的执行目录（自己设置的文件执行目录）中。

####（3）结果查看解压后的txt有900多M，用notepad++无法打开，所以采用python自带的IO进行读取。Python代码如下：设置一个文件名为openFile.py。

1
2
3
4
5


# -*- coding: utf-8 -*-
import codecs,sys
f = codecs.open('wiki.zh.simp.seg.txt','r',encoding="utf8")
line = f.readline()
print(line)

2.2 jieba分词

本例中采用结巴分词对字体简化后的wiki中文语料数据集进行分词，在执行代码前需要安装jieba（pipinstall jieba）模块。由于此语料已经去除了标点符号，因此在分词程序中无需进行清洗操作，可直接分词。若是自己采集的数据还需进行标点符号去除和去除停用词的操作。 Python实现代码如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


# -*- coding: utf-8 -*-
#逐行读取文件数据进行jieba分词
 
import jieba
import jieba.analyse
import jieba.posseg as pseg #引入词性标注接口
import  codecs,sys
 
if __name__ == '__main__':
    f=codecs.open('wiki.zh.simp.txt','r',encoding='utf-8')
    target=codecs.open('wiki.zh.simp.seg.txt','w',encoding='utf-8')
    print ('open files.')
 
    lineNum=1
    line=f.readline()
    while line:
        print('---processing',lineNum,'article---')
        seg_list = jieba.cut(line ,cut_all=False)
        line_seg = ' '.join(seg_list)
        target.writelines(line_seg)
        lineNum = lineNum + 1
        line = f.readline()
 
    print('well done !!!')
    f.close()
    target.close()

代码执行完成后得到一个1.12G大小的文档wiki.zh.simp.seg.txt。分词结果截图如下所示：

四、Word2Vec模型训练

（1）word2vec模型实现分好词的文档即可进行word2vec词向量模型的训练了。文档较大，本人在8GWin7的电脑中训练完成，且速度但是速度不是很快。具体Python代码实现如下所示，文件命名为train_word2vec_model.py

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


# -*- coding: utf-8 -*-
# !/usr/bin/env python
# -*- coding: utf-8 -*-
# train_word2vec_model.py用于训练模型
import logging
import os.path
import sys
import multiprocessing
from gensim.corpora import WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
 
if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))
    # check and process input arguments
    if len(sys.argv) < 4:
        print (globals()['__doc__'] % locals())
        sys.exit(1)
    inp, outp1, outp2 = sys.argv[1:4]
    model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5,
                     workers=multiprocessing.cpu_count())
    # trim unneeded model memory = use(much) less RAM
    # model.init_sims(replace=True)
    model.save(outp1)
    model.save_word2vec_format(outp2, binary=False)

接着用word2vec工具训练（执行代码）：

1
2
3


python train_word2vec_model.pywiki.zh.txt.seg wiki.zh.txt.model wiki.zh.txt.vector

（2）运行结果查看

1
2
3
4
5
6
7
8


2017-11-19 21:54:14,887: INFO: training on 822697865 raw words (765330910 effective words) took 1655.2s, 462390 effective words/s
2017-11-19 21:54:14,888: INFO: saving Word2Vec object under /Users/sy/Desktop/pyRoot/wiki_zh_vec/wiki.zh.text.model, separately None
2017-11-19 21:54:14,888: INFO: not storing attribute syn0norm
2017-11-19 21:54:14,889: INFO: storing np array 'syn0' to /Users/sy/Desktop/pyRoot/wiki_zh_vec/wiki.zh.text.model.wv.syn0.npy
2017-11-19 21:54:16,505: INFO: storing np array 'syn1neg' to /Users/sy/Desktop/pyRoot/wiki_zh_vec/wiki.zh.text.model.syn1neg.npy
2017-11-19 21:54:18,123: INFO: not storing attribute cum_table
2017-11-19 21:54:26,542: INFO: saved E:/Codes/DeepLearning/NLP/wiki.zh.text.model
2017-11-19 21:54:26,543: INFO: storing 733434x400 projection weights into E:/Codes/DeepLearning/NLP/wiki.zh.text.model

摘取了最后几行代码运行信息，代码运行完成后得到如下四个文件，其wiki.zh.text.model是建好的模型，wiki.zh.text.vector是词向量。

五、模型测试

模型训练好后，来测试模型的结果。Python代码如下，文件名为model_match.py。（目前调试总是失败，还未找到import关于多数组的解决方法，只好退而求其次，在dos窗口直接运行，也是一种方法）。

其代码如下（调试失败，需要进一步搜索解决方案）：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


# -*- coding: utf-8 -*-
# model_match.py 测试训练好的模型
 
import warnings
warnings.filterwarnings(action='ignore',category=UserWarning,module='gensim')
#忽略警告
#import sys
#reload(sys)
#sys.setdefaultencoding('utf-8')
import sys
#reload(sys)
#sys.setdefaultencoding("utf-8")
import importlib
importlib.reload(sys)
import gensim
 
if __name__ == '__main__' :
    fdir='E:/PyCharm/Codes/DeepLearning/NLP/'
    model=gensim.models.Word2Vec.load(fdir + 'wiki.zh.txt.model')
 
    word=model.most_similar(u'手机')
    #  u 表示是utf-8编码，如果是英文则不需要书写u，而在本例中需要
    #如果需要训练或者测试模型，可以对 '' 内的手机这个词汇进行修改
    for w in word :
        print(w[0],w[1])
    #内里呈现的是二维的数组，并且t[0]表示是对应的关联词汇，t[1]表示关联度多高。使用概率小数表达

首先该执行目录下输入：python进入到Anaconda的python环境。

在dos窗口中依次输入以下代码行。

1
2
3
4
5


import gensim
model = gensim.models.Word2Vec.load("wiki.zh.txt.model")
result = model.most_similar(u"足球")
for r in result:
    print(r[0],r[1])

注意事项：在for循环输入之后，看见的有以下的情况，请注意按下tab键，或者是连续4下空格键，不然会出现异常报错。

完整输入过程显示以及结果如下：

以上，关于word2vec训练模型以及完毕，之后的对于其他的训练文本，可按照自己所需进行。并且类似的我们还可以训练其他的语料库等等。

文章目录