因為項目的原因采用了Redis Cluster,3主3從,每臺主機1主1從,集群信息如下:
10.135.255.72:20011> cluster nodes
7b662b36489a6240aa21d1cf7b04b84019254b63 10.135.255.74:20012 slave 85c78164a448fb9965e22447429a56cab226c68f 0 1537239581900 43 connected
61c3e1a640e71f4801d850c901dd33f0b4f6876d 10.135.255.73:20012 slave 8e3491125e105333958dd752ee0d0b0a41ed2d90 0 1537239582300 41 connected
85c78164a448fb9965e22447429a56cab226c68f 10.135.255.73:20011 master - 0 1537239581999 43 connected 5461-10922
8e3491125e105333958dd752ee0d0b0a41ed2d90 10.135.255.72:20011 myself,master - 0 0 41 connected 0-5460
92eadfb6acbd0db74a8b8860286a7f63abce140e 10.135.255.74:20011 master - 0 1537239581799 44 connected 10923-16383
7084c1d7950b83abc1e4419500e1c24a9fa108e7 10.135.255.72:20012 slave 92eadfb6acbd0db74a8b8860286a7f63abce140e 0 1537239581499 44 connected
Redis Cluster經過運行一段時間后,會經常發(fā)生主從關系的自動切換,比如:10.135.255.74:20012變成master,10.135.255.73:20011變成slave,這樣就會導致10.135.255.74:20011和10.135.255.74:20012變成雙master,這樣假如10.135.255.74這臺主機發(fā)生宕機,就會導致2個master不可用,導致cluster down(ps:redis cluster中一半以上的master故障會導致 cluster down)。此問題困擾項目組很久,一直未找到根本原因。
后來經過多次查閱資料,應該是redis.conf里的集群節(jié)點的超時時限參數cluster-node-timeout配置的是2000(2秒),這里簡單講解下該參數的作用:
1.集群中當一個節(jié)點向另一個節(jié)點發(fā)送PING命令,但是目標節(jié)點未在給定的時限內返回PING命令的回復時,那么發(fā)送命令的節(jié)點會將目標節(jié)點標記為PFAIL(possible failuer,可能已失效);
等待節(jié)點回復的時限稱為節(jié)點超時時限(node timeout),是一個節(jié)點選項(node-wise setting);
每當集群發(fā)生配置變化時(可能是哈希槽更新,也可能是某個節(jié)點進入失效狀態(tài)),集群中的每個節(jié)點都會對它所知道的節(jié)點進行掃描(scan);
一旦配置完畢,集群就會進入兩種狀態(tài)中的一種:
FAIL:集群不能正常工作,當集群中有某個節(jié)點進入失效狀態(tài)時,集群不能處理任何命令請求,對于每個命令請求,集群節(jié)點都返回錯誤回復;
OK:集群可以正常工作,負責處理全部16384個槽節(jié)點中,沒有一個被標記為FAIL狀態(tài);
一旦某個主節(jié)點進入了FAIL狀態(tài),如果這個主節(jié)點有一個或者多個從節(jié)點存在,那么其中一個從節(jié)點會被升級為主節(jié)點,而其它從節(jié)點會開始對這個新主節(jié)點進行復制;
在實際生產使用過程中,由于網絡順時延遲或者Cluster某些節(jié)點正在進行持久化,AOF重寫、Master-slave同步數據這些耗時的操作,可能就會產生節(jié)點檢測超時(>2000ms)從而失效,為了避免節(jié)點檢測過于靈敏,經過多次調整實踐,在該項目的實際生產環(huán)境中,將cluster-node-timeout調整為12000ms后,比較穩(wěn)定,既不輕易發(fā)生主從自動切換,也在真正master節(jié)點主機宕機后,slave能迅速選舉為主,保證redis cluster可用。
補充:記一次Redis主從切換故障解決
在虛擬機機上配置了一主二從三哨兵,主機宕機后其中一臺從機自動切換為主機成功。重啟之前的主機卻連不上新的主機。
經過檢查發(fā)現(xiàn),舊的主機未配置連接新的從機的密碼
接下里配置好連接密碼,再重啟一下redis服務
重啟后主機連接狀態(tài)顯示正常,問題解決
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。