记录一次简单的Thread Block分析

java.lang.Thread.State: BLOCKED

1 背景

   问题:最近运维通知老大说监控生产环境时候发现线程阻塞,而错误日志上显示的是我们项目组的代码问题,所以一天几封邮件催问。
项目组的每个人大概扫描了一下报错的地方不属于自己的代码也就撒手不管,而小老大看了报错代码处没有明显错误加上还有其它更高优先级事情也不管了,
这种问题也许在他们看来重启以下就暂时解决,自己还是找到了最开始的发送的邮件一封封分析,也算是抓机会学习。

2 错误现象

   从运维美女处取出所有的hprof文件并按照关键字getXXX()搜索所有文件,发现文件中发现大量线程阻塞打印并且找到了最早(1.06)出现阻塞的打印

"xxxServer/ip:port-34" daemon prio=10 tid=0x00007fe47c06d800 nid=0x5368 waiting for monitor entry [0x00007fe45ac33000]
   java.lang.Thread.State: BLOCKED (on object monitor)

在这里插入图片描述

3 问题定位

3.1 分析报错日志 java.lang.Thread.State: BLOCKED

    搜索以下报错的日志和复习以下JVM,回忆以下Thread常见的几种状态及其Bolcked的问题原因

    参考链接1: https://www.javatang.com/archives/2017/10/25/36441958.html
    参考链接2: https://www.cnblogs.com/zhengyun_ustc/archive/2013/03/18/tda.html

3.2 分析hprof文件

    结合参考链接2分析报错日志,发现在getXXX.java之前有一处locked的异常打印,也就是在这个地方已经打印锁locked,之后出现大量的线程阻塞也是因此而起

- locked <0x0000000681e96b78>

    进一步分打印文件发现在该时间点之前的线程全是runnable,而这个时间点出现了block且在执行sql查询并进行allocate便locked.

3.3 分析GC日志打印文件

    在有以上疑问且找不到答案时,找到了一篇网友的博客给了一点思路: 会不会是内存不足导致无法分配资源从而线程阻塞

    参考链接3: https://www.cnblogs.com/zhengyun_ustc/archive/2013/03/18/tda.html

    又从运维美女那儿要到前后三天的所有的gc日志,缩小问题产生时间的范围,最后总结出了以下几个发现:

concurrent mark-sweep generation total 5505024K, used 0K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)
concurrent mark-sweep generation total 5505024K, used 0K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)
concurrent mark-sweep generation total 5505024K, used 0K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)
concurrent mark-sweep generation total 5505024K, used 9531K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)
concurrent mark-sweep generation total 5505024K, used 9531K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)

    3.3.1分析了日志和从运维了解到12月30日16点40时候前环境进行了重启,所以刚好对应老生代5G,使用了0K。

concurrent mark-sweep generation total 5505024K, used 2678556K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)
concurrent mark-sweep generation total 5505024K, used 2678556K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)
concurrent mark-sweep generation total 5505024K, used 2678676K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)

    3.3.2 12月31日15点46使用了接近一半。

concurrent mark-sweep generation total 5505024K, used 5505023K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)
concurrent mark-sweep generation total 5505024K, used 5505017K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)
concurrent mark-sweep generation total 5505024K, used 5505023K [0x0000000670000000, 0x00000007c0000000, 0x00000007c0000000)

    3.3.3 1月04日早上,老生代彻底消耗完。

    3.3.4 1月04日到发生线程阻塞时间(1.06)老生代完全没空间,新生代使用完空间要GC也没办法。

    3.3.5 1月06日调用getXXX方法生成十几万数据需要hibernate生成对象,从而没有空间,只能被阻塞

3.4 分析server的运行日志

   3.4.1再知道是因为堆中对象装满而无法被释放造成之后,有两点需要进一步分析:

   (1)为什么在GC日志中,在几天的时间中就把堆内存用尽,特别是有几个时间点几百兆往老生代塞

   (2)为什么老生代的对象无法释放

   3.4.2从运维拿到几个堆内存爆增的时间点,找到对应的server时间点的日志,发现只是一些很正常的查询操作且发现用户输入的
参数造成的数据量完全不大,甚至还有几个怀疑的时间点是没有日志的打印。

3.5 从日志分析代码

   最后再次询问运维美女,才知道这个server上运行了很多应用,不光有我们的项目,而且最主要的是所有的应用没有分开打印,
所有的应用都写到一个同一个日志中。彻底醉了,已经找到了出问题的时间点,想再深入到代码优化代码也没办法,没有区分不同应用的日志甚至还不打印参数

3.6 最后

   发送了整个分析过程给老大交差。当然最后要说以下他们的解决办法:重启!想说:🐮🍺,以后还分析个毛啊。

版权声明:本文为NoPainsNoGainsCSDN原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/NoPainsNoGainsCSDN/article/details/88426636

智能推荐

模拟按键 —— 鼠标

背景 之前写自动化脚本的时候总是遇到一些很尴尬的问题: 跑脚本时模拟鼠标按键时,光标是真实的跑到了那个位置的,也就是说跑脚本的时候会很影响电脑的正常使用,导致不得不开一个虚拟机专门跑。 另外因为光标只有一个所以很难实现多线程去同时操作多个窗口,当线程1 模拟鼠标但还没有结束时,线程2 已经开始执行模拟操作,这就导致了线程1 的模拟操作被终止了,被迫之下只能开多个虚拟机(但实在太占用性能🙄) 解决...

Hibernate学习总结(一)

一、Hibernate简介 一个持久层的ORM框架。ORM:Object Relational Mapping(对象关系映射)。指的是将一个Java中的对象与关系型数据库中的表建立一种映射关系,从而操作对象就可以操作数据库中的表。 二、Hibernate入门 1、创建一个项目,引入jar包 hibernate用到的jar包 2、创建表 3、创建实体类 4、创建映射(*****) 映射需要通过XML...

Linux系统NFS

文章目录 1. nfs简介 1.1 nfs特点 1.2 使用nfs的好处 1.3 nfs的体系组成 1.4 nfs的应用场景 2. nfs工作机制 2.1 RPC 2.2 NIS 2.3 nfs工作机制 3. exports文件的格式 4. nfs管理 5. 作业 5.1手动搭建一个nfs服务器 5.1.1开放/nfs/shared目录,供所有用户查阅资料 5.1.2 开放/nfs/upload目...

关于java中String,StringBuffer,StringBuilder的区别以及StringBuffer,StringBuilder的安全性问题

这里的结果就是正确的然后我们来看他的append方法 它在前边加了一个synchronized来修饰,相当于同时只能有一个线程来访问他,这样就不会产生上边的问题但同时他的效率也就比StringBuilder低,...

Django连接现有mysql数据库

1、打开cmd后cd到项目位置 2、建立项目 django-admin startproject test2 3、编辑项目中的配置文件, mysite/settings.py ,告诉Django你的数据库连接参数和数据库名。具体的说,要提供 DATABASE_NAME , DATABASE_ENGINE , DATAB...

猜你喜欢

ShareSDK新浪微博登录时报错error:redirect_uri_mismatch

今天用 ShareSDK 做第三方登录的时候碰到个问题,明明在微博平台的应用审核已经通过了,但是调用登录接口的时候一直报错,错误如下: 出现这个错误是因为在微博开放平台上没有设置回调地址,或者设置的回调地址与本地XML中的地址不一致。 在sharesdk.xml文件当中对于微博的设置: 其中RedirectUrl为设置的回调地址,这里的地址必须要与微博开发平台设置的地址相同,否则就会出现上面的错误...

python解析网络封包方法

2019独角兽企业重金招聘Python工程师标准>>> 在使用Python解析网络数据包时,使用网络字节序解析,参见下表。 C语言的数据类型和Python的数据类型对照表请参见下表。 接下来对封包与解包进行举例说明。 version type id content unsigned short unsigned short unsigned int unsigned int 封包...

python3:时间方法,异常处理,系统文件相关模块(os)

文章目录 时间方法 time模块 时间表示方法: time模块的方法 datetime模块 异常处理 触发异常 创建mydiv.py脚本,要求如下: 创建myerror.py脚本,要求如下: os模块 实现ls -R(os.walk) os.path pickle模块 记账脚本 时间方法 time模块 时间表示方法: 时间戳:自1970-1-1 0:00:00到某一时间点之间的秒数 UTC时间:世...

负载均衡群集——LVS+DR模型

一、实验组成 调度器 192.168.100:41 web1 192.168.100:42 web2 192.168.100.43 NFS共享服务器 192.168.100.44 二、实验拓扑 三、实验配置 3.1在调度器配置:192.168.100.41 配置虚拟IP地址(VIP) 调整/proc响应参数 对于 DR 群集模式来说,由于 LVS 负载调度器和各节点需要共用 VIP 地址,应该关闭...

adb无线连接时appium找不到设备

问题描述 以前使用USB连接真机,运行appium时一直正常,连接参数如下: 最近为了方便,使用adb无线连接真机,adb版本为1.0.40,真机安卓版本10,连接后,通过adb devices能够查看到连接的设备: adb无线连接是正常的,但每次运行时appium都找不到无线连接的设备,陷入重启adb循环: 解决流程 1.因为是没找到设备,所以在appium连接参数中增加了"udid&...