2010-03-04 32 views
5

Tôi hiện đang gặp sự cố với cấu hình nhóm của mình, khiến hàng nghìn thư bị kẹt trong NAKACK.xmit_table. Trên thực tế tất cả trong số họ dường như kết thúc trong xmit_table, và một bãi chứa khác từ một vài giờ sau đó chỉ ra rằng họ không bao giờ có ý định rời khỏi một trong hai ...JGroups ăn bộ nhớ

Đây là cấu hình giao thức ngăn xếp

UDP(bind_addr=xxx.xxx.xxx.114; 
bind_interface=bond0; 
ip_mcast=true;ip_ttl=64; 
loopback=false; 
mcast_addr=228.1.2.80;mcast_port=45589; 
mcast_recv_buf_size=80000; 
mcast_send_buf_size=150000; 
ucast_recv_buf_size=80000; 
ucast_send_buf_size=150000): 
PING(num_initial_members=3;timeout=2000): 
MERGE2(max_interval=20000;min_interval=10000): 
FD_SOCK: 
FD(max_tries=5;shun=true;timeout=10000): 
VERIFY_SUSPECT(timeout=1500): 
pbcast.NAKACK(discard_delivered_msgs=true;gc_lag=50;retransmit_timeout=600,1200,2400,4800;use_mcast_xmit=true): 
pbcast.STABLE(desired_avg_gossip=20000;max_bytes=400000;stability_delay=1000):UNICAST(timeout=600,1200,2400): 
FRAG(frag_size=8192):pbcast.GMS(join_timeout=5000;print_local_addr=true;shun=true): 
pbcast.STATE_TRANSFER 

Startup tin nhắn ...

2010-03-01 23:40:05,358 INFO [org.jboss.cache.TreeCache] viewAccepted(): [xxx.xxx.xxx.35:51723|17] [xxx.xxx.xxx.35:51723, xxx.xxx.xxx.36:53088, xxx.xxx.xxx.115:32781, xxx.xxx.xxx.114:32934] 
2010-03-01 23:40:05,363 INFO [org.jboss.cache.TreeCache] TreeCache local address is 10.35.191.114:32934 
2010-03-01 23:40:05,393 INFO [org.jboss.cache.TreeCache] received the state (size=32768 bytes) 
2010-03-01 23:40:05,509 INFO [org.jboss.cache.TreeCache] state was retrieved successfully (in 146 milliseconds) 

... cho biết mọi thứ đều ổn cho đến nay.

Các bản ghi, thiết lập để cảnh báo cấp không có nghĩa là một cái gì đó là sai trừ các occational

2010-03-03 09:59:01,354 ERROR [org.jgroups.blocks.NotificationBus] exception=java.lang.IllegalArgumentException: java.lang.NullPointerException 

mà tôi đoán là không liên quan vì nó đã được nhìn thấy trước đó mà không có vấn đề bộ nhớ bộ nhớ.

Tôi đã tìm hiểu thông qua hai bãi bộ nhớ từ một trong các máy để tìm những thứ kỳ lạ nhưng không có gì cho đến nay. Ngoại trừ có thể một số liệu thống kê từ các giao thức khác nhau

UDP có

num_bytes_sent 53617832 
num_bytes_received 679220174 
num_messages_sent 99524 
num_messages_received 99522 

khi NAKACK có ...

num_bytes_sent 0 
num_bytes_received 0 
num_messages_sent 0 
num_messages_received 0 

... và một xmit_table khổng lồ.

Mỗi máy có hai phiên bản JChannel, một cho ehcache và một cho TreeCache. Cấu hình sai có nghĩa là cả hai đều chia sẻ cùng một địa chỉ chẩn đoán, nhưng điều này không gây ra vấn đề gì trừ khi tôi muốn gửi thông báo chẩn đoán đúng không? Tuy nhiên, tất nhiên, họ có các địa chỉ mcast khác nhau cho các tin nhắn.

Vui lòng yêu cầu làm rõ, tôi có nhiều thông tin nhưng tôi hơi băn khoăn về những gì có liên quan tại thời điểm này.

Trả lời

4

Nó chỉ ra rằng một trong các nút trong cụm không nhận được bất kỳ tin nhắn multicast nào cả. Điều này khiến cho tất cả các nút bị treo vào xmit_tables của riêng chúng, vì chúng không nhận được bất kỳ thông điệp ổn định nào từ nút 'cô lập', cho biết rằng nó đã nhận được tin nhắn của chúng.

Khởi động lại AS, thay đổi địa chỉ phát đa hướng đã giải quyết được vấn đề.

Các vấn đề liên quan