说明:本系列文章仅用于共享我的学习成果,未经过生产系统考验,对于知识点和一些组件的使用会不定时更新,仅供参考,如有错误的地方,欢迎留言共同学习。
本高可用系列测试不说理论知识,如有需要自行百度,因生产环境大多数是内网环境,无法连接互联网,为模拟生产环境安装,postgresql高可用测试均采用离线部署。
所需软件包均以打包上传百度网盘,如有需要自行下载: 提取码:n9w2 文件名:postgresql_ha.tar.gz
第一章: 介绍测试环境
第二章: postgresql replication 部署
第三章: etcd 部署和管理
第四章: patroni 部署和管理
第五章: haproxy keepalived 部署和管理
第六章: 高可用模拟故障测试用例
第七章: prometheus grafana 监控部署
第八章: 高可用管理
- haproxy 使用c语言开发的一个开源软件,是一款具备高并发(一万以上)、高性能的tcp和http负载均衡器,支持基于cookie的持久性,自动故障切换,支持正则表达式及web状态统计。
- 使用 haproxy 设置端口区分连接主库(5000)和只读从库(5001),且端口上有负载均衡的功能(两个从库)。
- haproxy 开源m6米乐安卓版下载官网
- keepalived 免费开源,用c编写,通过vrrp协议实现多台机器之间的故障转移服务
- keepalived 官方文档
1. 主节点(pgtest1)和一个从节点(pgtest2)安装 haproxy
haproxy的安装有多种方式,可以使用系统自带的rpm(yum -y install haproxy),版本是 1.5.18。
也可以下载源码安装,以下采用源码安装方式。
源码安装包下载地址:
[root@pgtest1 ~]# cd /enmo/soft/
[root@pgtest1 soft]# tar -zxvf haproxy-2.4.7.tar.gz
[root@pgtest1 soft]# mkdir /enmo/app/haproxy-2.4.7
[root@pgtest1 soft]# ln -s /enmo/app/haproxy-2.4.7 /enmo/app/haproxy
[root@pgtest1 soft]# cd haproxy-2.4.7
[root@pgtest1 haproxy-2.4.7]# make target=linux-glibc arch=x86_64 prefix=/enmo/app/haproxy use_pcre=1 use_openssl=1 use_zlib=1 use_systemd=1 use_cpu_affinity=1
[root@pgtest1 haproxy-2.4.7]# make install prefix=/enmo/app/haproxy
# 参数说明
# make help
target=linux-glibc # 内核版本
arch=x86_64 # 指定cpu的架构为"x86_64"
prefix=/enmo/app/haproxy # 指定haprpxy安装路径
use_pcre=1 # 开启正则表达式。
use_openssl=1 # 开启openssl功能。
use_zlib=1 # 开启压缩和解压缩功能。
use_systemd=1 # 支持以"systemd"的方式启动。
use_cpu_affinity=1 # 开启cpu的亲和性。
配置环境变量,加入haproxy命令
[root@pgtest1 ~]# sed -i "s;:\$path:;:/enmo/app/haproxy/sbin:\$path:;g" /etc/profile
[root@pgtest1 ~]# source /etc/profile
[root@pgtest1 ~]# haproxy -v
haproxy version 2.4.7-b5e51a5 2021/10/04 - https://haproxy.org/
status: long-term supported branch - will stop receiving fixes around q2 2026.
known bugs: http://www.haproxy.org/bugs/bugs-2.4.7.html
running on: linux 3.10.0-693.el7.x86_64 #1 smp tue aug 22 21:09:27 utc 2017 x86_64
2. 安装 haproxy 的所有节点创建配置文件
使用系统自带的rpm安装的默认配置文件是 /etc/haproxy/haproxy.cfg
源码安装的需要新建配置文件 /enmo/app/haproxy/haproxy.cfg
# pgtest1 和 pgtest2 添加haproxy配置
[root@pgtest1 ~]# vi /enmo/app/haproxy/haproxy.cfg
global
log 127.0.0.1 local2
chroot /enmo/app/haproxy
pidfile /var/run/haproxy.pid
maxconn 5000
user root
group root
daemon
nbproc 2
defaults
mode tcp
log 127.0.0.1 local2 err
option tcplog
option dontlognull
option redispatch
retries 3
maxconn 5000
timeout queue 1m
timeout connect 10s
timeout client 1m
timeout server 1m
timeout check 5s
listen status
bind *:1080
mode http
log global
stats enable
stats refresh 30s
stats uri /
stats realm private lands
stats auth admin:admin
listen master
bind *:5000
mode tcp
option tcplog
balance roundrobin
option httpchk options /master
http-check expect status 200
default-server inter 3s fall 3 rise 2 on-marked-down shutdown-sessions
server pgtest1 192.168.58.10:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
server pgtest2 192.168.58.11:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
server pgtest3 192.168.58.12:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
listen replicas
bind *:5001
mode tcp
option tcplog
balance roundrobin
option httpchk options /replica
http-check expect status 200
default-server inter 3s fall 3 rise 2 on-marked-down shutdown-sessions
server pgtest1 192.168.58.10:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
server pgtest2 192.168.58.11:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
server pgtest3 192.168.58.12:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
如果只有2个节点,上面的get /replica 需要改成 get /read-only,否则备库故障时就无法提供只读访问了,但是这样配置主库也会参与读,不能完全分离主库的读负载。
参数说明
# 全局定义
global
# log 127.0.0.1 local0 info # 全局的日志配置,使用log关键字,指定使用127.0.0.1上的syslog服务中的local0日志设备,记录日志等级为info的日志
log 127.0.0.1 local2 # 日志输出配置,所有日志都记录在本机,通过local0输出,需要在rsyslog做配置
chroot /var/lib/haproxy # 改变当前工作目录
pidfile /var/run/haproxy.pid # 进程pid文件
maxconn 3000 # 最大连接数
user haproxy # 所属用户
group haproxy # 所属组
daemon # 以后台形式运行haproxy
nbproc 1 # haproxy 启动时的进程数,<=cpu的核数,创建多个进程数,可以减少每个进程的任务队列,但是过多的进程数也可能会导致进程的崩溃。
stats socket /var/lib/haproxy/stats
# 默认部分的定义
defaults
mode tcp # 模式 mode {tcp|http|health}, tcp是4层, http是7层, health是健康检测, 只会返回ok
log 127.0.0.1 local2 err # 使用 127.0.0.1 上的 syslog 服务的 local2 设备记录错误信息
option tcplog # 如果将 mode 设置为 http,那么您必须将 tcplog 更改为 httplog
option dontlognull # 启用该项,日志中将不会记录空连接。所谓空连接就是在上游的负载均衡器或者监控系统为了探测该服务是否存活可用时,需要定期的连接或者获取某一固定的组件或页面,或者探测扫描端口是否在监听或开放等动作被称为空连接;官方文档中标注,如果该服务上游没有其他的负载均衡器的话,建议不要使用该参数,因为互联网上的恶意扫描或其他动作就不会被记录下来。
option redispatch # 当 serverid 对应的服务器挂掉后,强制定向到其他健康的服务器
option abortonclose # 当服务器负载很高的时候,自动结束掉当队列处理比较久的链接
retries 3 # 定义连接后端服务器的失败重连次数,连接失败次数超过此值后将会将对应后端服务器标记为不可用
maxconn 3000 # 默认最大连接数
timeout queue 1m # 当达到服务器的 maxconn 时,连接等待最大时长
timeout connect 10s # 连接超时
timeout client 1m # 客户端非活动状态的超时时长
timeout server 1m # 服务器超时
timeout check 5s # 心跳检测超时
# 配置haproxy web监控,查看统计信息
listen status
bind *:1080 # 定义统计页面的端口
mode http
log global
stats enable # 通过web看状态信息
stats refresh 30s # 统计页面自动刷新时间
maxconn 10 # 最大连接数
stats uri / # 统计页面url,http//ip:1080/ 访问
stats realm private lands # 设置统计页面认证时的提示内容
stats auth admin:admin2021 # 设置统计页面认证的用户和密码,如果要设置多个,另起一行写入即可
stats hide-version # 隐藏统计页面上haproxy的版本信息
listen master
bind *:5000 # 定义haproxy前端部分监听的端口
mode tcp
option tcplog
balance roundrobin # 设置负载算法为:轮询算法
option httpchk options /master
http-check expect status 200
default-server inter 3s fall 3 rise 2 on-marked-down shutdown-sessions # inter:间隔3秒做一个检测,fall:3次失败会被踢掉,rise:检查2次
server pgtest1 192.168.58.10:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
server pgtest2 192.168.58.11:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
server pgtest3 192.168.58.12:5432 maxconn 1000 check port 8008 inter 5000 rise 2 fall 2
3. 安装 haproxy 的所有节点创建服务,启动haproxy
使用系统自带的rpm安装的自带服务,无需配置
# 创建服务
[root@pgtest1 ~]# vi /usr/lib/systemd/system/haproxy.service
[unit]
description=haproxy load balancer
after=syslog.target network.target
[service]
execstartpre=/enmo/app/haproxy/sbin/haproxy -f /enmo/app/haproxy/haproxy.cfg -c -q
execstart=/enmo/app/haproxy/sbin/haproxy -ws -f /enmo/app/haproxy/haproxy.cfg -p /var/run/haproxy.pid
execreload=/bin/kill -usr2 $mainpid
[install]
wantedby=multi-user.target
# 启动服务
systemctl daemon-reload
systemctl start haproxy
systemctl status haproxy
systemctl enable haproxy
4. 浏览器访问 haproxy
浏览器登录 输入用户名 admin 密码 admin
5. 测试5000和5001端口连接数据库
这里我们通过 5000 端口和 5001 端口分别来提供读写服务和只读服务,在没有安装keepalived的情况下,如果需要对数据库写入数据只需要对外提供 192.168.58.10/11 5000 端口即可,可以模拟主库故障,即关闭其中的 master 节点来验证是否会进行自动主从切换。
[root@pgtest1 ~]# patronictl list
--------- --------------- --------- --------- ---- -----------
| member | host | role | state | tl | lag in mb |
cluster: pg_cluster (7025023477017500881) -- ---- -----------
| pgtest1 | 192.168.58.10 | leader | running | 7 | | # 主库
| pgtest2 | 192.168.58.11 | replica | running | 7 | 0 | # 备库1
| pgtest3 | 192.168.58.12 | replica | running | 7 | 0 | # 备库2
--------- --------------- --------- --------- ---- -----------
# 192.168.58.10 5000 连接主库
[root@pgtest3 ~]# psql "host=192.168.58.10 port=5000 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.10 | f
(1 row)
# 192.168.58.11 5000 连接主库
[root@pgtest3 ~]# psql "host=192.168.58.11 port=5000 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.10 | f
(1 row)
# 192.168.58.12 5000 不能连接数据库,因为 192.168.58.12 上没有部署 haproxy
[root@pgtest3 ~]# psql "host=192.168.58.12 port=5000 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
psql: error: could not connect to server: connection refused
is the server running on host "192.168.58.12" and accepting
tcp/ip connections on port 5000?
# 192.168.58.10 5001 连接两个备库,备库两个节点负载均衡
[root@pgtest3 ~]# psql "host=192.168.58.10 port=5001 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.12 | t
(1 row)
[root@pgtest3 ~]# psql "host=192.168.58.10 port=5001 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.11 | t
(1 row)
# 192.168.58.11 5001 连接备库,备库两个节点负载均衡
[root@pgtest3 ~]# psql "host=192.168.58.11 port=5001 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.12 | t
(1 row)
[root@pgtest3 ~]# psql "host=192.168.58.11 port=5001 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.11 | t
(1 row)
# 192.168.58.12 5001 不能连接数据库,因为 192.168.58.12 上没有部署 haproxy
[root@pgtest3 ~]# psql "host=192.168.58.12 port=5001 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
psql: error: could not connect to server: connection refused
is the server running on host "192.168.58.12" and accepting
tcp/ip connections on port 5001?
至此,haproxy 部署完成。
6. 安装 haproxy 的两个节点安装 keepalived
keepalived 的安装有多种方式,可以使用系统自带的rpm(yum -y install keepalived),版本是 1.3.5。
也可以下载源码安装,以下采用源码安装方式。
源码安装包下载地址:
注意,源码编译安装会出现以下警告,如果需要支持ipv6,建议提前安装libnl
*** warning - this build will not support ipvs with ipv6. please install libnl/libnl-3 dev libraries to support ipv6 with ipvs.
# yum install libnl* -y
[root@pgtest1 ~]# cd /enmo/soft/
[root@pgtest1 soft]# tar -zxvf keepalived-2.2.4.tar.gz
[root@pgtest1 soft]# mkdir /enmo/app/keepalived-2.2.4
[root@pgtest1 soft]# ln -s /enmo/app/keepalived-2.2.4 /enmo/app/keepalived
[root@pgtest1 soft]# cd keepalived-2.2.4
[root@pgtest1 keepalived-2.2.4]# ./configure --prefix=/enmo/app/keepalived
[root@pgtest1 keepalived-2.2.4]# make && make install
配置环境变量,加入keepalived命令
[root@pgtest1 ~]# sed -i "s;:\$path:;:/enmo/app/keepalived/sbin:\$path:;g" /etc/profile
[root@pgtest1 ~]# source /etc/profile
[root@pgtest1 ~]# keepalived -v
keepalived v2.2.4 (08/21,2021)
米乐app官网下载 copyright(c) 2001-2021 alexandre cassen,
built with kernel headers for linux 3.10.0
running on linux 3.10.0-693.el7.x86_64 #1 smp tue aug 22 21:09:27 utc 2017
distro: centos linux 7 (core)
configure options: --prefix=/enmo/app/keepalived
config options: lvs vrrp vrrp_auth vrrp_vmac old_chksum_compat init=systemd systemd_notify
system options: vsyslog libnl1 rta_encap rta_expires fra_tun_id rtax_cc_algo rtax_quickack ifa_flags net_linux_if_h_collision net_linux_if_ether_h_collision libiptc_linux_net_if_h_collision libipvs_netlink ifla_link_netnsid glob_brace glob_altdirfunc inet6_addr_gen_mode so_mark
7. 安装 keepalived 的所有节点创建配置文件, vip使用192.168.58.20
使用系统自带的rpm安装的配置文件是 /etc/keepalived/keepalived.conf
源码安装的需要新建配置文件 /enmo/app/keepalived/etc/keepalived/keepalived.conf
# keepalived 主节点查看本地使用的网卡名
[root@pgtest1 ~]# ip a |grep 192.168.58.10 |awk '{print $nf}'
ens33
# keepalived 主节点配置文件
[root@pgtest1 ~]# mv /enmo/app/keepalived/etc/keepalived/keepalived.conf /enmo/app/keepalived/etc/keepalived/keepalived.conf.bak
[root@pgtest1 ~]# vi /enmo/app/keepalived/etc/keepalived/keepalived.conf
! configuration file for keepalived
global_defs {
router_id pgtest1
script_user root
enable_script_security
}
vrrp_script chk_haproxy {
script "/usr/bin/killall -0 haproxy"
interval 2
weight 5
fall 3
rise 5
timeout 2
}
vrrp_instance vi_1 {
state master
interface ens33
virtual_router_id 88
priority 100
advert_int 5
authentication {
auth_type pass
auth_pass postgres
}
virtual_ipaddress {
192.168.58.20/24 dev ens33 label ens33:1
}
track_script {
chk_haproxy
}
}
# keepalived 主节点查看本地使用的网卡名
[root@pgtest2 ~]# ip a |grep 192.168.58.11 |awk '{print $nf}'
ens32
# keepalived 备节点配置文件
[root@pgtest2 ~]# mv /enmo/app/keepalived/etc/keepalived/keepalived.conf /enmo/app/keepalived/etc/keepalived/keepalived.conf.bak
[root@pgtest2 ~]# vi /enmo/app/keepalived/etc/keepalived/keepalived.conf
! configuration file for keepalived
global_defs {
router_id pgtest2
script_user root
enable_script_security
}
vrrp_script chk_haproxy {
script "/usr/bin/killall -0 haproxy"
interval 2
weight 5
fall 3
rise 5
timeout 2
}
vrrp_instance vi_1 {
state backup
interface ens32
virtual_router_id 88
priority 99
advert_int 5
authentication {
auth_type pass
auth_pass postgres
}
virtual_ipaddress {
192.168.58.20/24 dev ens32 label ens32:1
}
track_script {
chk_haproxy
}
}
参数说明
! configuration file for keepalived
# 全局定义块
global_defs {
# 标识服务器的字符串,在局域网内应该是唯一的,不必是主机名,默认是本地主机名
router_id pgtest1
# 设置运行脚本默认用户和组
script_user root
# 如果脚本路径的任一部分对于非root用户来说,都具有可写权限,则不会以root身份运行脚本。
enable_script_security
}
# 周期性检查脚本
vrrp_script chk_haproxy {
# 指定要执行的脚本的路径或命令
# 通过向进程 haproxy 发送信号 0 ,然后根据返回值来判断 haproxy 进程是否存在
script "/usr/bin/killall -0 haproxy"
# 脚本调用间隔的秒数,(默认值:1s)
interval 2
# 指定在多少秒后,脚本被认为执行失败
timeout 2
# 调整权重优先级,默认为2
# keepalived 启动时就做权重运算,priority weight ,主备端哪边权重大,vip就在哪边启动
weight 5
# 执行失败多少次才认为失败
fall 3
# 执行成功多少次才认为是成功
rise 5
}
# vrrp实例定义块
vrrp_instance vi_1 {
# 指定该keepalived节点的初始状态
state master
# vrrp实例绑定的接口,用于发送vrrp包
interface ens33
# 指定vrrp实例id,范围是0-255,主备机保持一致
virtual_router_id 88
# 指定优先级,优先级高的将成为master,备机请填写小于主机的值
priority 100
# 指定发送vrrp通告的间隔。单位是秒
advert_int 5
# 指定认证方式
authentication {
auth_type pass # pass简单密码认证(推荐),ah:ipsec认证(不推荐)
auth_pass postgres # 指定认证所使用的密码,最多8位。
}
# 指定vip地址,主备机保持一致
virtual_ipaddress {
192.168.58.20/24 dev ens33 label ens33:1
}
# 添加一个 track 脚本( vrrp_script 配置的脚本)
track_script {
chk_haproxy
}
}
keepalived 配置文件参数详解
8. 安装 keepalived 的所有节点创建服务,启动 keepalived
使用系统自带的rpm安装的自带服务,无需配置
# 创建服务
[root@pgtest1 ~]# vi /usr/lib/systemd/system/keepalived.service
[unit]
description=lvs and vrrp high availability monitor
after=network-online.target syslog.target haproxy.service
requires=haproxy.service
wants=network-online.target
documentation=man:keepalived(8)
documentation=man:keepalived.conf(5)
documentation=man:genhash(1)
documentation=https://keepalived.org
[service]
type=forking
pidfile=/var/run/keepalived.pid
killmode=process
environmentfile=/enmo/app/keepalived/etc/sysconfig/keepalived
execstart=/enmo/app/keepalived/sbin/keepalived -f /enmo/app/keepalived/etc/keepalived/keepalived.conf $keepalived_options
execreload=/bin/kill -hup $mainpid
execstop=/usr/bin/killall keepalived
[install]
wantedby=multi-user.target
# 启动服务
systemctl daemon-reload
systemctl start keepalived
systemctl enable keepalived
9. keepalived 主节点验证vip(192.168.58.20)是否创建
[root@pgtest1 ~]# ip -4 a show ens33
2: ens33: mtu 1500 qdisc pfifo_fast state up qlen 1000
inet 192.168.58.10/24 brd 192.168.58.255 scope global ens33
valid_lft forever preferred_lft forever
inet 192.168.58.20/24 scope global secondary ens33:1
valid_lft forever preferred_lft forever
10. 测试vip(192.168.58.20)和5000/5001端口连接数据库
# 192.168.58.20 5000,只连接主库,对外提供读写服务
[root@pgtest3 ~]# psql "host=192.168.58.20 port=5000 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.10 | f
(1 row)
# 192.168.58.20 5001,负载均衡的连接两个备库,对外提供只读服务
[root@pgtest3 ~]# psql "host=192.168.58.20 port=5001 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.11 | t
(1 row)
[root@pgtest3 ~]# psql "host=192.168.58.20 port=5001 user=postgres dbname=postgres password=postgres" -c 'select inet_server_addr(),pg_is_in_recovery()'
inet_server_addr | pg_is_in_recovery
------------------ -------------------
192.168.58.12 | t
(1 row)
haproxy 和 keepalived 日志都记录到 /var/log/messages
至此,postgresql高可用之patroni etcd haproxy keepalived 离线部署完成。
11. keepalived 管理
11.1 keepalived 通过调节权重主动切换vip
注意,建议在 keepalived 的备端调整 priority 大于主端的值
[root@pgtest2 ~]# vi /enmo/app/keepalived/etc/keepalived/keepalived.conf
priority 101 # 主端是100
备端重启keepalived,备端keepalived发现权重比主端大,就会自动把vip拉过来,如果顺利的话,这样对vip影响较小
重启不建议使用 systemctl restart keepalived,测试不太好使
[root@pgtest2 ~]# systemctl stop keepalived
[root@pgtest2 ~]# systemctl start keepalived