标签 Supervisor 下的文章

紧接上次的 使用 Supervisor 守护 php-fpm 进程,在 Supervisor 控制台中能看见有 Nginx 的任务。这个任务并不是我加的,而是我拿到服务器就已经配好了,很可能是运维配置的。

今天调 Bug 的时候发现了问题,所以分为两篇来讲。

问题描述

上回使用 Laravel Admin 搭建了后台,功能看似一切正常,然而今天给同事演示导出功能的时候出了幺蛾子。问题也实在奇怪:当「导出当前页」能正常导出,「导出全部」则始终网络错误。

神操作

刚开始以为是 Laravel Admin 使用的 Excel 拓展类(maatwebsite/Laravel-Excel)的问题,将导出类替换为 league/csv,然鹅。我发现在测试环境无论是 Laravel-Excel 还是 csv 都能导出。也就是说我白忙活了半天?

日志!

一边安慰自己是在排除代码问题,一边去查看 Nginx 的错误日志。Nginxroot 用户安装的,查看日志必须加 sudo,忽然发现日志一直在输出错误:

2018/09/20 16:14:38 [emerg] 23817#0: bind() to 0.0.0.0:8800 failed (98: Address already in use)
2018/09/20 16:14:38 [emerg] 23817#0: bind() to 0.0.0.0:80 failed (98: Address already in use)
2018/09/20 16:14:38 [emerg] 23817#0: bind() to 0.0.0.0:443 failed (98: Address already in use)
2018/09/20 16:14:38 [emerg] 23817#0: bind() to 0.0.0.0:8800 failed (98: Address already in use)
2018/09/20 16:14:38 [emerg] 23817#0: still could not bind()

每秒都在输出,惊得我立马查看线上环境,然而一切正常。缓过神来,发现这个日志实在眼熟,我们是不是在哪儿见过?简直和 使用 Supervisor 守护 php-fpm 进程 的 php-fpm 的错误日志如出一辙啊。那我可大概知道是什么原因了。

查证

首先在 Nginx 中文文档 中找到 Nginx 主模块,找到 daemon 命令,官方给出的解释是:

语法: daemon on | off

缺省值: on

Do not use the "daemon" and "master_process" directives in a production mode, these options are mainly used for development only. You can use daemon off

大意:在生产环境中 daemonmaster_process 配置均不可使用,仅用于开发测试。

为了方便开发测试 Nginxdaemon 参数默认值为 on

然后找到 Nginx 的配置文件 /usr/local/nginx/conf/nginx.conf,检索 daemon 参数。然后是意料之中 Pattern not found: daemon

解决方案

第一种是直接在 nginx.conf 配置文件中增加 daemon off; 参数。

第二种则是在启动 Nginx 时追加命令,命令为:

/usr/local/nginx/sbin/nginx -g 'daemon off;'

由于线上环境 Nginx 配置文件由 Supervisor 守护,所以直接修改 supervisord.conf

[program:nginx]
command=/usr/local/nginx/sbin/nginx -g 'daemon off;'
directory=/usr/local/nginx
autostart=true
autorestart=true
redirect_stderr=true
priority=10
stdout_logfile=/data/logs/supervisord/nginx.log

修改后记得更新 Supervisor 以及重启 Nginx 进程,命令:

$ supervisorctl reread # 重新读取配置
$ supervisorctl update # 更新配置
$ supervisorctl restart nginx  # 重启 nginx
$ killall nginx  # 杀掉所有的 nginx 进程

至此 Nginx 日志终于消停下来,我也能慢慢的查问题了。

上回的 Laravel 应用开发完成上线之后,稳定的跑了一个月。业务一切正常,就这最近一周应用负载的第二台服务器总是抽风。

先说说应用的场景。

我们的应用项目代码在我们自己的服务器上,两台服务器做承载。按理来说其中一台服务器宕掉会立马故障转移到另一台服务器。但是应用前边还有两台服务器。

不太好解释,一个请求差不多是这样的:

https://www.a.com/
       | 
       | (SLB 轮询到 Server 3、Server 4 上的一台服务器,然后 301 重定向)
       ↓
https://www.b.com/abc
       |
       |(SLB 轮询)
       ↓
Server 1、Server 2(所属其他项目组)
       |
       |(Nginx 转发)
       ↓
Server 3、Server 4 (所属我们项目组)
       |
       | (Nginx 转发到 Localhost 8800端口)
       ↓
      响应

这种场景有些特殊,困于公司的各种恼人的流程,实在想不出其他法子了,以至于开发的应用适配这个架构改了好多次。

现在问题是:当 Server 3Server 4 宕机了,SLB 无法故障转移。碰巧的是 php-fpmServer 4三天挂掉了三次

我们唯一知道服务器宕掉的途径是——业务群炸了!这显然已经晚了,业务势必受到影响。

在翻看 php-fpm 日志和 nginx 日志查找了半天没有结果的情况下,心生一秒计——Supervisor 守护进程。

Supervisor 简单来说就是在你需要常驻运行的程序挂掉的时候及时拉起。这对于现在的场景是非常合适啊。

编辑 /etc/supervisord.d/php-fpm.ini,配置如下:

[program:php-fpm]
command=bash -c "sleep 1 && /usr/local/php7/sbin/php-fpm --fpm-config /usr/local/php7/etc/php-fpm.conf --pid /usr/local/php7/var/run/php-fpm.pid"
process_name=%(program_name)s
autostart=true
autorestart=true
startretries=5
exitcodes=0,2,70
stopsignal=QUIT
stopwaitsecs=2
stdout_logfile=/data/logs/supervisord/php-fpm.log

进入 Supervisor 控制台:

$ sudo supervisorctl
nginx                            RUNNING   pid 26046, uptime 0:00:01
php-fpm                          STARTING
supervisor> reread
php-fpm: changed
supervisor> start php-fpm
php-fpm: ERROR (abnormal termination)

请记住这里最后的结果是 ERROR,然而查看进程 php-fpm 确实在跑了,kill 掉进程也能拉起来,我不太清楚为什么会这样。但是跑了一天后,php-fpm 又挂了。对,是又挂了而且没拉起来。

继续锁定 ERROR,先查看 php-fpm 日志。

[01-Sep-2018 11:20:21] ERROR: unable to bind listening socket for address '127.0.0.1:9000': Address already in use (98)
[01-Sep-2018 11:20:21] ERROR: FPM initialization failed
[01-Sep-2018 11:20:23] ERROR: unable to bind listening socket for address '127.0.0.1:9000': Address already in use (98)
[01-Sep-2018 11:20:23] ERROR: FPM initialization failed
[01-Sep-2018 11:20:24] ERROR: unable to bind listening socket for address '127.0.0.1:9000': Address already in use (98)
[01-Sep-2018 11:20:24] ERROR: FPM initialization failed
[01-Sep-2018 11:20:25] ERROR: unable to bind listening socket for address '127.0.0.1:9000': Address already in use (98)
[01-Sep-2018 11:20:25] ERROR: FPM initialization failed

一直在报这个错误,看来必须要解决才行呢,看样子是端口被占用了?但是是基于 supervisor 启动的,怎么会有这种错误呢?

当然,配置是有问题的。

php-fpm 进程默认是以 daemon 方式启动的,而 Supervisor 文档 的说明是,使用 supervisor 监护进程时,被监护的进程不能是守护进程。

我们需要关闭 php-fpm 的进程守护,编辑 /usr/local/php/etc/php-fpm.conf,查找 daemonize 修改为 no

然后 killall php-fpm 的所有进程,现在查看 php-fpm 日志。

$ tail -f /usr/local/php/var/log/php-fpm.log
[01-Sep-2018 11:28:25] ERROR: unable to bind listening socket for address '127.0.0.1:9000': Address already in use (98)
[01-Sep-2018 11:28:25] ERROR: FPM initialization failed
[01-Sep-2018 11:28:26] ERROR: unable to bind listening socket for address '127.0.0.1:9000': Address already in use (98)
[01-Sep-2018 11:28:26] ERROR: FPM initialization failed
[01-Sep-2018 11:28:27] ERROR: unable to bind listening socket for address '127.0.0.1:9000': Address already in use (98)
[01-Sep-2018 11:28:27] ERROR: FPM initialization failed
[01-Sep-2018 11:28:28] NOTICE: Terminating ...
[01-Sep-2018 11:28:28] NOTICE: exiting, bye-bye!
[01-Sep-2018 11:28:29] NOTICE: fpm is running, pid 26011
[01-Sep-2018 11:28:29] NOTICE: ready to handle connections

查看 supervisor 状态:

$ sudo supervisorctl
nginx                            RUNNING   pid 26046, uptime 0:00:01
php-fpm                          RUNNING   pid 26009, uptime 0:00:45

关于 php-fpm 为什么会隔三差五挂掉还没查出来,为了不影响业务,只能先守护进程保证业务正常运作。