首先进行jieba分词,去除停用词;然后通过正则表达式去除无关字符,构建词向量;最后提取小说的所有人名并画图展示出来。   #查看跟令狐冲关系相当于师妹跟林平之的关系的词 #提取这本小说里的所有人名 #PCA降维后画图 如果plt.show()显示的是空白的图的话就先将图片保存到本地,然后在打开图片查看即可。 中间那一堆密密麻麻的应该是跑龙套的演员,放大一部分查看。...

1 elmo是什么? ELMo的 特点: 2 Elmo训练有哪些好项目? 有训练过程的项目 预训练模型: 3 Elmo训练流程 3.1 elmo训练流程 3.2 elmo如何fine-tune到其他领域?? 3.3 elmo具体使用的方式 4 英文预训练模型 4.1 首推Elmo Embeddings in Keras with TensorFlow hub 4.2 allenai/bilm-tf...

1 概述 情感分析是自然语言处理中常见的场景,比如淘宝商品评价,饿了么外卖评价等,对于指导产品更新迭代具有关键性作用。通过情感分析,可以挖掘产品在各个维度的优劣,从而明确如何改进产品。比如对外卖评价,可以分析菜品口味、送达时间、送餐态度、菜品丰富度等多个维度的用户情感指数,从而从各个维度上改进外卖服务。 情感分析可以采用基于情感词典的传统方法,也可以采用基于深度学习的方法,下面详细讲解 2 基于情...

对话系统常用评价指标 当前对话系统之所以还没有取得突破性的进展,很大程度上是因为没有一个可以准确表示回答效果好坏的评价标准。对话系统中大都使用机器翻译、摘要生成领域提出来的评价指标,但是很明显对话系统的场景和需求与他们是存在差别的,这也是当前模型效果不是很好的原因之一。从对话系统不同的层次角度来评价对话系统的效果时,每个层面会有不同的关注点,如下图所示: 从上图可以看出,黄色标识人类的主观角度,而...

1、概述 词向量是自然语言分词在词空间中的表示,词之间的距离代表了分词之间的相似性,我们可以使用gensim,tensorflow等框架非常方便的来实现词向量。但词向量在词空间的分布到底是什么样的,如何更好的理解词向量是一个非常重要的问题。本文将使用tensorbord以及相关的降维技术在三维空间中模拟词向量在高维空间的分布。 2、训练词向量 词向量的训练是一个无监督的学习过程,这并不是本文讨论的...

传送:基于Hierarchical Softmax的word2vec模型原理            基于Negative Sampling的word2vec模型原理 一、基本概念准备 稀疏向量(one-hot representation):用一个很长的向量来表示一个词,向量的长度为词典大小N,向量的分量只有一个1,其他全为0,1的位置对...

常用词向量方法对比 本文测试常用的几个WordEmbedding方法,并对比效果 常用词向量 Word2Vec 这是通过上下文信息预测词向量方法的典型代表,主要包括CBOW和Skip-gram两种,测试用的是CBOW + NegtiveSampling 代码:https://code.google.com/p/word2vec/ 论文:https://arxiv.org/pdf/1301.3781...

制作词云

词云

  

2019-08-07 19:55:21

工具:(在线) 原因: 不足: 步骤: 导入文本数据 选择形状,也可以是自己import 的图像作为形状 修改字体 ( 中文字体需要自己上传) mac: Library/Fonts/** windows: C:/WINDOWS/font 选择文字排列方向 生成词云 Visualize Download and Share...

1、导入必要编程库 2、创建会话,生成模拟数据 3、生成批量大小,占位符等 4、创建高斯核函数 高斯核函数: k(||x−xc||)=e(−||x−xc||2(2∗σ)2)k(||x−xc||)=e(−||x−xc||2(2∗σ)2) 5、声明支持向量机的对偶问题 6、创建预...

函数间隔,对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点(xi,yi)的函数间隔为: 几何间隔:对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点(xi,yi)的几何间隔为: 线性可分支持向量机与硬间隔最大化 给定训练样本集,分类学习最基本的想法就是基于训练集D在样本空间中找到划分超平面,将不同类别的样本分开,希望找到的是位于两类样本正中间的划分超平...

numpy向量化函数

numpy  向量化函数

  

2019-09-01 05:01:13

向量化函数 自定义的 sinc 函数: 作用于单个数值:       但这个函数不能作用于数组:   可以使用 numpy 的 vectorize 将函数 sinc 向量化,产生一个新的函数:     其作用是为 x 中的每一个值调用 sinc 函数:     因为这样的用法涉及大量的函数调用,因此,向量化函数的效率并...

vector向量容器与数组相似之处: vector能像数组一样通过下标对元素进行随机访问或者对某个元素重新赋值,下标都是从0开始。 vector向量容器的优点: vector具有内存自带管理的功能,对于元素的插入和删除,可动态分配调整所占的内存空间。对于对空间要求很严格的题,用数组超时的话,尤其是二维数组,用vector向量容器可以节省很多空间。 vector向量容器的简单用法: begin()返...

python——词云图

词云  python

  

2019-08-18 20:58:12

使用python生成词云 注意事项: 生成词云一定要设置字体样式,否则汉字出现乱码或者不显示 这是根据纳兰性德的词,生成的词云图。...