发现有三十多万的消息堆积在10的queue里没有被消费
记录一下查看问题的步骤:
1 jps
找出程序的PID
2 jstack ${PID}
查看线程dump,发现rabbitMQ的consumer worker线程block住了:
"Thread-33" prio=10 tid=0x00002aaac8013000 nid=0x3264 waiting for monitor entry [0x00000000437e4000]
java.lang.Thread.State: BLOCKED (on object monitor)
at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3525)
- waiting to lock <0x000000072039ce18> (a java.lang.Object)
at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3505)
at com.xiaomi.miliao.mt.fulltextindex.UserIndexUpdater.updatePlUserIndex(UserIndexUpdater.java:229)
- locked <0x0000000711ab59c8> (a java.lang.Object)
at com.xiaomi.miliao.mt.fulltextindex.SearcherDelegate.updatePlUserIndex(SearcherDelegate.java:522)
at com.xiaomi.miliao.mt.fulltextindex.MessageQueueDelegate$PlUserIndexMessageHandler.handleMessage(MessageQueueDelegate.java:342)
at com.xiaomi.miliao.rabbitmq.ConsumerWorker.run(ConsumerWorker.java:107)
at java.lang.Thread.run(Thread.java:662)
这个线程的状态是wating for monitor entry,但是它在等待这个锁(0x000000072039ce18)已经被下面的这个线程占有了,而且下面的这个线程一直在run,没有返回。根据它的栈信息,查看java.io.FileDescriptor.sync方法,怀疑是系统IO很繁忙,一直没有返回。
"Thread-24" prio=10 tid=0x00002aaac8007000 nid=0x3257 runnable [0x00000000431d8000]
java.lang.Thread.State: RUNNABLE
at java.io.FileDescriptor.sync(Native Method)
at org.apache.lucene.store.FSDirectory.sync(FSDirectory.java:321)
at org.apache.lucene.index.IndexWriter.startCommit(IndexWriter.java:4801)
at org.apache.lucene.index.IndexWriter.prepareCommit(IndexWriter.java:3461)
at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3534)
- locked <0x000000072039ce18> (a java.lang.Object)
at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3505)
at com.xiaomi.miliao.mt.fulltextindex.UserIndexUpdater.updatePlUserIndex(UserIndexUpdater.java:229)
- locked <0x0000000711d6b558> (a java.lang.Object)
at com.xiaomi.miliao.mt.fulltextindex.SearcherDelegate.updatePlUserIndex(SearcherDelegate.java:522)
at com.xiaomi.miliao.mt.fulltextindex.MessageQueueDelegate$PlUserIndexMessageHandler.handleMessage(MessageQueueDelegate.java:342)
at com.xiaomi.miliao.rabbitmq.ConsumerWorker.run(ConsumerWorker.java:107)
at java.lang.Thread.run(Thread.java:662)
3 ssh到指定服务器,查看cpu负载
top -d 5 五秒刷新一次,然后按1,查看所有的cpu的情况,没有发现异常,但是发现我的服务确实很占cpu啊,给力!lucene确实需要优化,赶紧切换到sensei吧
[root@MT1-10 logs]# top -d 5
top - 20:13:51 up 439 days, 16:15, 7 users, load average: 4.56, 4.82, 4.84
Tasks: 244 total, 1 running, 243 sleeping, 0 stopped, 0 zombie
Cpu0 : 17.6%us, 1.6%sy, 0.0%ni, 73.6%id, 7.2%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu1 : 6.6%us, 1.4%sy, 0.0%ni, 6.0%id, 85.8%wa, 0.0%hi, 0.2%si, 0.0%st
Cpu2 : 5.6%us, 0.8%sy, 0.0%ni, 84.1%id, 9.6%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu3 : 4.4%us, 0.4%sy, 0.0%ni, 95.2%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu4 : 3.0%us, 0.6%sy, 0.0%ni, 93.8%id, 2.6%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu5 : 2.2%us, 0.6%sy, 0.0%ni, 94.4%id, 2.8%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu6 : 2.2%us, 0.2%sy, 0.0%ni, 95.6%id, 2.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu7 : 15.0%us, 2.4%sy, 0.0%ni, 70.1%id, 12.2%wa, 0.0%hi, 0.4%si, 0.0%st
Cpu8 : 5.4%us, 0.6%sy, 0.0%ni, 91.6%id, 2.2%wa, 0.0%hi, 0.2%si, 0.0%st
Cpu9 : 5.2%us, 1.2%sy, 0.0%ni, 66.9%id, 26.7%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu10 : 2.6%us, 0.6%sy, 0.0%ni, 92.4%id, 4.4%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu11 : 6.2%us, 0.8%sy, 0.0%ni, 93.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu12 : 2.4%us, 0.4%sy, 0.0%ni, 95.4%id, 1.8%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu13 : 11.8%us, 1.2%sy, 0.0%ni, 84.7%id, 2.4%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu14 : 2.2%us, 0.2%sy, 0.0%ni, 97.6%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu15 : 35.8%us, 5.2%sy, 0.0%ni, 41.8%id, 12.8%wa, 0.2%hi, 4.2%si, 0.0%st
Mem: 32956180k total, 32849076k used, 107104k free, 547628k buffers
Swap: 6144820k total, 228k used, 6144592k free, 18353516k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
12681 root 18 0 5168m 2.4g 13m S 129.3 7.7 1675:27 java
4 使用iostat -d -x 1 100,查看系统io的使用情况(-d 是查看disk, -c是查看cpu), -x是查看更多信息,1是1秒刷新一次,100是查看一百次
[root@MT1-10 logs]# iostat -d -x 1 1
Linux 2.6.18-194.el5 (MT1-10) 10/09/2012
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
cciss/c0d0 0.00 776.00 3.00 259.00 24.00 11360.00 43.45 51.73 352.21 3.82 100.10
cciss/c0d0p1
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
cciss/c0d0p2
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
cciss/c0d0p3
0.00 23.00 0.00 3.00 0.00 208.00 69.33 0.18 61.00 61.00 18.30
cciss/c0d0p4
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
cciss/c0d0p5
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
cciss/c0d0p6
0.00 753.00 3.00 256.00 24.00 11152.00 43.15 51.55 355.59 3.86 100.10
具体名咯解析可查看
http://wenku.baidu.com/view/5991f2781711cc7931b7168c.html
发现cciss/c0d0p6的%util达到了100%,太繁忙了。
平均IO请求的队列长度avgqu-sz是51.55
平均使用的扇区数量是43.15
平均每个IO的等待时间的355.59毫秒
说明这快磁盘已经出现性能瓶颈了!
使用iopp可查看每个进程的IO情况!
- 大小: 54.6 KB
分享到:
相关推荐
当MQ中有消息堆积时,处理流程如图中绿色线条所示,MQ会持续从队列中取出堆积的消息将其发送出去,直到没有了堆积消息,或者消费者的qos被用光,或者没有消费者,或
主要介绍了JAVA获取rabbitmq消息总数过程详解,公司使用的是rabbitMQ,需要做监控预警的job去监控rabbitMQ里面的堆积消息个数,如何使用rabbitMQ获取监控的队列里面的队列消息个数呢,需要的朋友可以参考下
MQ消息堆积终极解决方案【RabbitMQ】.docx
课程目的 1. 了解消息中间件背景...5、如何发现出现了大量消息的堆积?采取了哪些应急措施?问题产生的根源是什么?如何避免 消息中间件概述: 分布式系统中如何进行远程通信 为什么要使用消息中间件?市场上有哪些
消息队列RabbitMQ学习 为什么学习RabbitMQ 每一种技术的出现,都是为了解决业务需求而产生的。通常的背景是,在某种业务场景下,出现了某种问题,怎么解决这种问题,一个新的技术产生了。下面举个单体架构的例子来...
• 亿级消息堆积能力 • 比较友好的分布式特性 • 同时支持 Push 与 Pull 方式消费消息 • 历经多次天猫双十一海量消息考验 目前主流的 MQ 主要是 RocketMQ、kafka、RabbitMQ,对比其主要优势有: • 支持事务型消息...
前言 消息队列 RocketMQ 版是基于 Apache RocketMQ 构建的低延迟、...RabbitMQ不支持延迟消息,Active和RocketMQ支持延迟消息。 可靠性 RocketMQ支持异步/同步刷盘;异步/同步Replication。Kafka使用异步刷盘方式,异步
全局配置,对所有队列统一指定消息堆积阀值和接警人 msgTotalMax=10000000 mailList=liyanhong@baidu.com ; 忽略某些队列 ignoreQueueList=abc,cde ; 后台线程监控周期,以秒为单位 cycle=120 [mq] ; mq地址、...
memcacheQ是一个单纯的分布式消息队列...在Web2.0的时代,高并发的情况越来越常见,从而使消息队列有成为居家必备的趋势,相应的也涌现出了很多实现方案,像Twitter以前就使用RabbitMQ实现消息队列服务,现在又转而使
本文来自于jianshu,文章介绍了Rocketmq、kafka、Rabbitmq的详细对比,...让消息系统通知相关系统)蓄流压测(线上有些链路不好压测,可以通过堆积一定量消息再放开来压测)目前主流的MQ主要是Rocketmq、kafka、Rabbit
当然,作为爬虫,使用 会是个更好的选择,可惜云天河资源云资源受限且日常消息堆积量不大,所以当前选用的RabbitMQ 项目截图 图 01 - 漫画作品列表页 图 02 - 漫画章节列表 图 03 - 漫画详情页 图 04 - 后台漫画列表页 ...
3.6:消费端如何做限流量一:什么是消费端的限流场景:首先,我们迎来了订单的高峰期,在mq的broker上堆积了成千上万条消息没有处理,这个时候,我们随便打开了