问题描述

?

考虑到在山东移动机房租赁的物理服务器的存在单点,并时不时出现故障,导致业务停止,因此决定从物理服务器把某个老牌论坛迁移到可用性极高的proxmox超融合私有云平台。昨天夜里,兄弟们忙乎了一整夜,很是辛苦(我在11点对那些坏掉的文件系统进行修复,用screen仍在那里,自己睡觉去了)。

?

上午睡了个懒觉,还没清醒过来,有电话、qq消息过来了,说论坛页面能打开,详情页也没问题,但不能签到、发帖、发附件等。

paicuo01.jpg

催得厉害,赶紧进行处理。

?

运行环境

?

主要包括负载均衡及超融合私有云proxmox。负载均衡负责用户转发,使用的是公网ip;超融合私有云proxmox使用的是四个节点的物理服务器,运行30几个虚拟机。

paicuo02.jpg

域名解析到负载均衡的vip,haproxy负责把请求转发到proxmox上的指定的虚拟机。由于论坛容量不是很大(400G左右),就直接把论坛程序、附件及数据库部署在同一个虚拟机上(其它的应用,程序与数据库是分离的)。

?

基本思路

?

超融合私有云平台proxmox上的其它虚拟机及应用都是正常状态,因此可以排除底层架构的问题。

?

另外两个大的排查点就是负载均衡及论坛虚拟机本身。其他兄弟怀疑是负载均衡配置的问题,还发来了相关操作信息。

paicuo03.jpg

我一直强调,一定要先从后端真实提供服务的系统进行排查,真实服务提供者有问题,排查负载均衡有什么用处呢?

?

问题定位

?

登录系统,查看论坛的配置,主要是nginx及php。论坛页面可以打开,可以初步断定php没什么问题。

?

接下来,打开nginx配置看看,主配置文件有如下几行包含项:

include?vhosts/default.conf;
include?vhosts/bbs.formyz.net.conf;
include?vhosts/file.formyz.net.conf;
include?vhosts/net.formyz.net.conf;

include vhosts/default.conf;

include vhosts/bbs.formyz.net.conf;

include vhosts/file.formyz.net.conf;

include vhosts/net.formyz.net.conf;

对nginx进行语法检查,未发现异常。老办法,查nginx错误日志,很快有如下发现:

FastCGI?sent?in?stderr:?"Primary?script?unknown"?while?reading???response?header?from?upstream

FastCGI sent?in?stderr:?"Primary script unknown"?while?reading ? response header from upstream

?

心中有底了,一定是哪个包含文件配置上有问题。分别对这三个配置文件进行备份,然后挨个打开,发先有两个配置文件里,嵌套了包含项如下:

root??????/data/html/bbs.formyz.net;
???????????????fastcgi_pass??127.0.0.1:9000;
???????????????fastcgi_index?index.php;
???????????????include???fastcgi.conf;

root??? ? /data/html/bbs.formyz.net;

?????????????? fastcgi_pass? 127.0.0.1:9000;

?????????????? fastcgi_index index.php;

?????????????? include ? fastcgi.conf;

而另外一个配置文件里,嵌套的项确是这样的:

root??????/data/html/bbs.formyz.net;
???????????????fastcgi_pass??127.0.0.1:9000;
???????????????fastcgi_index?index.php;
???????????????include???fastcgi_params;

root??? ? /data/html/bbs.formyz.net;

?????????????? fastcgi_pass? 127.0.0.1:9000;

?????????????? fastcgi_index index.php;

?????????????? include ? fastcgi_params;

?

再比较文件fastcgi.conf与文件fastcgi_params,不同之处如下:

Fastcgi.conf

fastcgi_params

fastcgi_param? SCRIPT_FILENAME??? $document_root$fastcgi_script_name;

fastcgi_param? SCRIPT_NAME??????? $fastcgi_script_name;

?

把不一致的嵌套包含,都改成include fastcgi.conf,重启nginx。绑定服务器的主机名及ip到本地的hosts文件,浏览器访问论坛,测试签到、发帖等,一切恢复正常!