运用java爬虫和python做词云图

标签: 豆瓣爬虫  java  Python  词云图  词频图

前言:

        最近有点时间,就写个东西玩玩,就是分析电影评论做成词云图。这次没有采用python去爬取电影评论,而是采用了java中的多线程和线程池去爬取电影评论,但是用评论做词云图使用python写的。如果不喜欢用java做爬虫的朋友,也可以换成用python语言写,过程不是很重要,看自己喜好。

环境:

        windows 10 

        jdk 1.7

        python 3.5

成果:


作品链接:

请大家随手 star 下不甚感激

            java多线程爬虫的部分:https://github.com/vicoqi/java-crawl/tree/master/java_spider

            python 做词云图的部分:https://github.com/vicoqi/python_crawl/tree/master/word-cloud

一、爬取电影评论

        这里我抓取的电影评论是《肖申克的救赎》,当然你们也可以换电影爬取,只需要换到URL 中的 subject后面的id数就好。

        由于采用的是java语言写的,所以我先说说思路。不想看思路的直接去github上看代码

        1)爬取代理网站上的代理IP 和端口,可以持久化到文件中等下次用,不用每次启动都去要去重新爬取代理网站上的代理Ip 和端口。收集 各种 USER-AGENT 头,每次做请求时随机切换。以上两个步骤都是为了防止反爬虫。

        2)把上一步收集到的代理信息,进行验证,验证成功的保存到set集合中,为后面定时持久化到文件。保存成功的就保存到队列中,为后面做出队列与入队列和重试。

        3)对访问到的数据进行解析,这里主要是采用了 jsoup 去解析。把解析数据保存到磁盘。

 详细的代码部分请移步上面的github链接关于java 部分。

二、对评论进行解析

        这个部分我采用的是python 语言写的,因为这个分词解析和第三部分的做词云图很配合,所以我图方便就都用python写了。

        这个部分需要安装python 的一些类库:

        jieba、matplotlib、numpy、pillow 。

        所以我建议大家最好安装好pip这个包管理器,需要什么只需输入 pip install 类库名称  就可以了。

        但是有时候你会发现安装一些类库用 pip 会失败。所以下面我就从网上找了一些亲测的解决办法,里面包括我上面所提到所有东西的安装方法。

        https://blog.csdn.net/piaomaishuangshuang/article/details/52181604
        https://blog.csdn.net/heyuexianzi/article/details/76851377
        https://www.jianshu.com/p/7af0f10a2374

        详细的代码部分请移步上面的github链接关于python 部分。

三、做词云图

        根据上一步做的分词解析结果,我们就可以做词云图了。

        1)做词云图之前我们需要一个类库,那就是wordCloud库,有了它我们才能做到文章开头那样的效果图片。首先需要大家安装这个wordcloud这个类库。安装办法我也给大家如下:

https://www.jianshu.com/p/7af0f10a2374

        2)下载字体,因为这个wordcloud对中文的支持不太好,所以要下载 Yahei.ttf。

            字体下载链接如下:    

http://vdisk.weibo.com/s/uwZsrNXe4D4SG

        3)项目中有两个python文件,一个是带背景图的,一个是不带的。可以看大家的喜好选择

不带背景图的代码

#3、生成词云图,这里需要注意的是WordCloud默认不支持中文,所以这里需已下载好的中文字库  
#无自定义背景图:需要指定生成词云图的像素大小,默认背景颜色为黑色,统一文字颜色:mode='RGBA'和colormap='pink'  
wc = WordCloud(font_path=r"D:\Python\Python35-32\worl_cloud\Monaco Yahei.ttf",background_color='white',width=800,height=600,max_font_size=50,  
               max_words=1000)#,min_font_size=10)#,mode='RGBA',colormap='pink') 

带背景图的代码

#3、初始化自定义背景图片  
image = Image.open(r'D:\pythonworkspace\word-cloud\back.jpg')  
graph = np.array(image)  
  
#4、产生词云图  
#有自定义背景图:生成词云图由自定义背景图像素大小决定  
wc = WordCloud(font_path=r"D:\Python\Python35-32\worl_cloud\Monaco Yahei.ttf",background_color='white',max_font_size=50,mask=graph)  
wc.generate(result)  

不带背景图的效果图:


详细的代码部分请移步上面的github链接关于python 部分。


总结:

        用java爬虫,让自己实践了多线程与线程池等知识,还用到了模板的设计思维。

        用python 做分析做词云图,让自己体会到了用python 做科学计数分析的强大与方便。


        



版权声明:本文为vicoqi原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/vicoqi/article/details/80432553

智能推荐

单链表+单链表代码(链表最基础)

链表 链表是有顺序的表,在内存中存储: 链表是以节点的方式存储的 每个节点包括data域,next域:指向下一个节点 如图:发现链表的各个节点不一定是连续存放的,有跳跃的,不是连续存储 链表分为带头节点的链表和没有头结点的链表 添加: 1.先创建一个head头结点,作用就是单链表的头 2.后面每添加一个节点,就直接加入到链表最后 遍历: 代码 添加节点到链表里: 这里借助于temp节点,通过循环找...

Rtthread学习笔记(十三)RT-Thread Studio开启硬件看门狗Watchdog

一、开启硬件看门狗Watchdog 1、配置RT-Thread Settings 2、开启stm32f1xx_hal_conf.h中的宏定义 3.使用RT接口函数初始化硬件看门狗...

TYVJ 4864 天天去哪吃 || 清北学堂金秋杯大奖赛

题目描述: 记录一下i这个值上次出现的位置在哪里,就是pre...

java反编译

jvm 把Boolean类型的值flag当做int类型处理。​​​ Foo.java: 由 class 文件生成 jasm 文件:java -jar asmtools.jar jdis Foo.class > Foo.jasm  修改jasm文件: 执行反编译: java -jar jd-gui-1.6.6.jar File 打开Foo.class文件:b修改为2 重新执行java...

【学习笔记】03-v-html的学习和示例

v-html的认识和使用 示例: 显示结果: 注意:v-html是有复制的...

猜你喜欢

Java实现在线考试系统(系统介绍)

1.和现在有的考试系统有以下几种优势: a.和现在有的系统比较起来,本系统有科目、章节、老师、学生、班级等信息的管理,还有批阅试卷查看已批阅试卷等。传统的考试系统划分并不细,业务功能简单。 b.和学校的考试系统还有外面的考试系统比较起来,本系统是B/S结构,学校的考试系统一般为C/S结构,性能方面不如B/S结构,并且C/S接口需要安装客户端,客户端压力很大,我的系统只需要电脑具有浏览器,在同一局域...

计算机视觉--多视几何初步尝试

基础矩阵的原理 K和K’分别是两个相机的参数矩阵。p和p’是X在平面π的坐标表示。所以可以得出 具体计算过程 代码: #!/usr/bin/env python coding: utf-8 from PIL import Image from numpy import * from pylab import * import numpy as np from imp ...

java初学者怎么学习才可以快速入门

java初学者怎么学习才可以快速入门 一、了解JAVA 我们要知道:Java是由Sun Microsystems公司于1995年5月推出的Java面向对象程序设计语言。 Java之父:詹姆斯·高斯林 1.1 java的三个体系 Java SE(Java Platform Standard Edition)。Java SE 以前称为 J2SE。它允许开发和部署在桌面、服务器、嵌入式环境...

字段属性之主键&增删改查&自增长&唯一键约束

字段属性之主键&自增长&唯一键约束 主键 主键:primary key 主要的键 一张表中只有一个字段可以使用对应的键,用来唯一的约束该字段里面的数据,不能重复,这种称之为主键 一张表只能最多一个主键 增加主键 SQL操作中有多种方式增加主键大体分为三种 1.在创建表的时候直接在字段之后跟primary key关键字(主键本身不允许为空) 优点:非常直接:缺点:只能使用一个字段作为...

linux下 基于libmad的socket多用户mp3音频在线播放服务器

在众多大神的帮助下,这个在线播放流媒体服务器终于完成啦。。。。 这个mp3流媒体服务器设计的思路是,服务器程序server用多线程实现和多个客户端的通信(这是必然的),然后发送给客户端当前的音频列表公客户端选择,之后根据k客户端的选择给多个客户端传输相应mp3文件的数据,同时,客户端进行实时地音频解码并播放。 关于libmad开源mp3音频解码库的使用,见上一篇博客吧。。。。 在服务器程序这一端,...