分享人:无心水
分享主题:机器学习之Word2Vec
分享提纲:
机器学习是计算机基于数据构建概率统计模型并运⽤模型对数据进⾏预测与分析的学科。
关于人工智能、机器学习、深度学习之间的关系:
根据输⼊输出类型的不同,机器学习可分为
根据训练数据是否具有标签信息,可以将机器学习的任务分成以下三类。
监督学习是从已标记的训练数据来推断一个功能的机器学习任务,主要特点就是训练数据是有标签的。
本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。
我们把⼀堆猫和狗的照⽚给机器,不给这些照⽚打任何标签,但是我们希望机器能够将这 些照⽚分分类。
首先机器会观察它所处的环境,然后做出行动;机器的行动会改变环境;接着机器再次观察环境,再次做出行动,如此循环。
每一次训练结束,机器都会收到一个回馈,机器根据回馈,不断调整模型。
强化学习更接近⽣物学习的本质,因此有望获得更⾼的智能。
word2vec是word Embedding 表示方式之一,属于监督学习,是NLP领域常用工具之一。由Google的Tomas Mikolov领导的一组研究人员在2013年创建和发布,并获得了专利。
2013年goole推出的一个用于获取词向量的工具包。
算法架构:
『Distributed Representations of Sentences and Documents』
作者:Tomas Mikolov
贡献:在前人基础上提出更精简的语言模型(language model)框架并用于生成词向量,这个框架就是 Word2vec
『Efficient estimation of word representations in vector space』
作者:
贡献:专门讲训练 Word2vec 中的两个trick:hierarchical softmax 和 negative sampling
『word2vec Explained- Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method』
作者:Yoav Goldberg
优点:对 negative-sampling 的公式推导非常完备
缺点:不够全面,而且都是公式,没有图示,略显干枯
『word2vec Parameter Learning Explained』
作者:Xin Rong
优点:理论完备由浅入深非常好懂,且直击要害,既有 high-level 的 intuition 的解释,也有细节的推导过程。
Continuous bag-of-words,CBOW
拿一个词语的上下文作为输入,来预测这个词语本身
训练过程演示:
Skip-gram,简称sg模型
用一个词语作为输入,来预测它周围的上下文
训练过程演示:
本质是把 N 分类问题变成 log(N)次二分类
本质是预测总体类别的一个子集
1)词汇相似度任务,比如wordsim353,但是这种方式比较依赖于数据集。
2)类比任务,比如男人-女人=国王-王后
3)应用于实际任务上的效果,比如文本分类,情感分析,句法分析,序列标注,阅读理解等等。这种方法我觉得是比较靠谱的,因为我们训练词向量是希望得到一个好的词向量,然后能在别的任务上work,
4)可视化,可以用谷歌的Embedding Projector工具,用 PCA、t-SNE对高维词向量进行可视化,把数据降到三维,以3D方式查看数据。
常用API:
word2vec.Word2Vec用的多些。
sentences:可以是一个list,对于大语料集,建议使用BrownCorpus,Text8Corpus或ineSentence构建。
sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。
size:是指特征向量的维度,默认为100。
window:表示当前词与预测词在一个句子中的最大距离是多少
sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)
workers: 参数控制训练的并行数。
其他API参考:models.word2vec – Word2vec embeddings
SG模型,余炫相似性:
CBOW模型,验证相似性:
可视化主要是通过数据降维的形式,图形化表示。
由于维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及特征的发现。
WIKI中文词向量PCA展示:
简易语料PCA展示:
核心代码:
常用中文分词工具对比
中文分词准确率对比
相似度度量
互联网常用语料
数据源:
搜狗实验室:http://www.sogou.com/labs/resource/list_news.php
Pre-trained word vectors of 30+ languages:https://github.com/Kyubyong/wordvectors
中文维基分词语料:链接 https://pan.baidu.com/s/1qXKIPp6 密码 kade
腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用:https://mp.weixin.qq.com/s/b9NWR0F7GQLYtgGSL50gQw
参考: