编程我只用CPP 发布的文章

socks5服务端搭建

作者: 编程我只用CPP
时间: 2020-03-08
分类: Linux运维
评论

ss5项目主页：http://ss5.sourceforge.net/，下载地址：https://sourceforge.net/projects/ss5/files/。

先下载下来源码包，解压：

tar -zxvf ss5-3.8.9-8.tar.gz
cd ss5-3.8.9

安装依赖项：

yum install epel-release
yum update -y

yum groupinstall 'Development Tools' -y
yum install gcc automake autoconf libtool make yum-utils wget -y

yum install pam-devel openldap-devel openssl-devel -y

编译程序并安装：

./configure
make && make install

make的时候如果报下面的错误，说明是gcc版本太高了导致，需要使用低版本的（gcc4）来编译：

ss5-3.8.9/src/SS5Core.c:839: undefined reference to `S5DebugUdpRequestInfo'
ss5-3.8.9/src/SS5Core.c:842: undefined reference to `S5ChildClose'
ss5-3.8.9/src/SS5Core.c:843: undefined reference to `S5ChildClose'
ss5-3.8.9/src/SS5Core.c:866: undefined reference to `S5ChildClose'
ss5-3.8.9/src/SS5Core.c:759: undefined reference to `S5DebugUpstreamInfo'
ss5-3.8.9/src/SS5Core.c:397: undefined reference to `S5ChildClose'
collect2: error: ld returned 1 exit status
make[1]: *** [ss5] Error 1
make[1]: Leaving directory `ss5-3.8.9/src'
make: *** [src] Error 2

安装完成后，默认的配置文件在/etc/opt/ss5/ss5.conf，日志文件在/var/log/ss5/ss5.log。

修改配置文件，去掉下面两行的注释：

auth    0.0.0.0/0               -               -
permit -    0.0.0.0/0    -    0.0.0.0/0    -    -    -    -    -

这两行是认证相关的参数，去掉注释表示使用默认的认证参数（不需要认证并允许所有IP代理）。ss5程序支持多种认证方式，包括密码认证以及ldap认证等，这里测试使用不需要认证。

服务默认监听1080端口，启动服务的办法：

ss5 -t -u root

参数说明：

-t: 使用多线程模式
-u: 指定启动用户
-p: 指定pid文件路径

测试代理是否成功：

加入systemd服务

配置文件：

[Unit]
Description=SS5 Socks Proxy
After=syslog.target network.target nss-lookup.target

[Service]
Type=forking
PIDFile=/var/run/ss5.pid
ExecStart=/sbin/ss5 -p /var/run/ss5.pid -u root

[Install]
WantedBy=multi-user.target

参考

Install ss5 on CentOS7 to implement SOCKS5 proxy service

Ss5 official document

Socks5 Secure Username and Password Authorization Agreement

一、问题现象

使用item2登录到远程linux后，系统的语言编程了中文：

本来对于中国人来说，使用中文没有什么不好。但是报错信息是中文就导致出问题了不好查，百度和google查不到相关信息。比较尴尬！

二、解决办法

通过locale命令查看当前终端的语言和字符编码信息：

[root@centos7:~]$ locale
LANG=zh_CN.UTF-8
LC_CTYPE="zh_CN.UTF-8"
LC_NUMERIC="zh_CN.UTF-8"
LC_TIME="zh_CN.UTF-8"
LC_COLLATE="zh_CN.UTF-8"
LC_MONETARY="zh_CN.UTF-8"
LC_MESSAGES="zh_CN.UTF-8"
LC_PAPER="zh_CN.UTF-8"
LC_NAME="zh_CN.UTF-8"
LC_ADDRESS="zh_CN.UTF-8"
LC_TELEPHONE="zh_CN.UTF-8"
LC_MEASUREMENT="zh_CN.UTF-8"
LC_IDENTIFICATION="zh_CN.UTF-8"
LC_ALL=

通过第一行输出可以看到语言是zh_CN.UTF-8，说明当前bash使用的是中文语言。

修改方法

在~/.bashrc中修改语言控制相关的环境变量：

export LC_ALL=en_US.UTF-8
export LANG=en_US.UTF-8

然后source ~/.bashrc生效：

一次孤儿socket过多导致系统异常的问题排查过程

作者: 编程我只用CPP
时间: 2020-03-03
分类: 计算机网络
2 条评论

一、问题现象

客户报障，说使用了我们的网关设备后网络经常中断。具体的情形是用我们设备做代理上网后，流量图显示流量每隔两分钟就会直线下跌一次，同时就伴随着内网用户断网。

经过排查后发现问题原因是设备负载太高了导致，出问题时候的负载趋势图为：

从图形来看，负载是每1-2分钟就会上升一次，而且上升得特别明显，最高到达了五十多。但设备只是一个4核的设备，这么高的负载肯定是无法承受了。可以断定断网是负载高导致的。

于是继续分析mpstat中对CPU的采样，看看是什么原因导致的设备负载高：

linux 2.6.30-os (localhost) 02/27/20 _x86_64_    (4 CPU)

Average:     CPU    %usr   %nice    %sys   %soft  %idle
Average:     all   17.50    4.75   18.00   29.75  27.75
Average:       0   17.00    5.00   16.00    4.00  57.00
Average:       1   17.17    0.00   18.18   60.61   0.00
Average:       2   16.16   13.13   16.16    1.01  53.54
Average:       3   20.00    0.00   21.00   54.00   1.00

从cpu抽样数据可以看到，出问题的时候，有2个CPU都已经跑满了，其中占用最高的是soft，两个核占用都超过了一半。soft是系统软中断调用，是内核层面的原因导致，需要进一步排查内核中的问题。

内核问题一般回打印到messages或者dmesg，我们的设备是都保存到了一个dmesg文件中，因此下一步思路就是分析dmesg了。果然，查看dmesg就看到了大量的错误信息：

TCP: time wait bucket table overflow
...
Out of socket memory
...
TCP: too many of orphaned sockets

经过查找资料后，整理出来三个错误日志的意思：

TCP: too many of orphaned sockets: 太多的孤儿socket
Out of socket memory: socket占用的内存超出
TCP: time wait bucket table overflow: 保存TIME-WAIT状态socket的哈希表槽溢出

对比错误日志产生的时间和系统负载增加的时间发现两者都能对上，负载高的时候打印日志更频繁，负载低的时候几乎没有什么日志。这就说明导致负载高的原因和这三条日志有关了，下一步思路是分析为什么要打印这些日志了。

二、分析孤儿socket

2.1 什么是孤儿socket

说到孤儿socket的原因是Out of socket memory日志，说实话在遇到这个问题之前我并不知道有孤儿socket的存在，也是在网上查这个日志信息才知道的。产生这个日志的原因有两个：

孤儿socket太多，超出系统阈值，阈值可通过cat /proc/sys/net/ipv4/tcp_max_orphans查看。
TCP缓冲区超出系统阈值，缓冲区的大小可通过cat /proc/sys/net/ipv4/tcp_mem查看。

通过另外两个日志信息基本可以判断是第一种情况了——孤儿socket太多导致的。那么孤儿socket到底是什么呢？

大部分的资料都是这么描述孤儿socket的：孤儿socket是已经没有和文件句柄绑定、但是仍然存在于内核没有被释放的socket。

这个说法相当官方，并且笼统，虽然说的并没有错误。实际用接地气的话来描述的话就是那些已经执行了close()但是状态还没有到达CLOSED状态的socket。

回忆一下TCP四次挥手的过程：

客户端执行close()函数来关闭socket，此时会发送FIN包到服务端，客户端socket的状态是FIN-WAIT-1，等到服务端ACK后状态变成FIN-WAIT-2。然后服务端也执行close()，此时socket就变成了TIME-WAIT状态，等到2MSL时间过去后才变成CLOSED。孤儿socket指的是状态在FIN-WAIT-1到TIME-WAIT之间的socket，他们已经准备释放了，但是还没有达到完全释放的条件。

2.2 分析孤儿socket状态

在确定了问题原因是孤儿socket导致的之后，排查的思路就是确定孤儿socket的状态了。

查看系统支持的最大孤儿socket数量：

查看当前socket使用状态：

# 方法1
cat /proc/net/sockstat
# 方法2
ss -s

可以看到当前环境中孤儿socket有65506个，距离超出系统负载就差一点点了。而closed和timewait状态的socket更是有10w+个之多，这种情况下内核确实承受了它这种配置不该承受的压力。

此时，下一步的排查思路就变成了为什么会有这么多socket无法完全释放了。

三、问题原因分析

当问题定位孤儿socket后，网上所有的教程都是通过放大tcp_max_orphans参数来解决，实际上是否真正能解决问题呢？调大之后会不会导致孤儿socket继续增加，是否会导致系统运行异常，这些都是有待确认的。

因为是线上环境，为了避免调整导致网络环境出现更大的异常，所以没有直接按照教程把值往上调整一倍，而是增加了5%左右。调整完成后，实际上并没有太大的效果，孤儿socket还是一直增加到了上限，dmesg也是一直打印日志，因此可以认为这种方法不可取，再往大调只会导致情况更加恶化。具体的原因还得具体再分析。

3.1 统计连接数

根据上面ss命令的结果能看到，系统处于关闭状态（执行了close()或者shutdown()之后）的socket数量很多，总量加起来接近30w个，因此首要的问题是如何定位到是什么程序产生的socket。

通过ss命令统计出所有的连接状态：

ss -ant >ss.txt

因为连接数量很多，统计需要很长时间，所以定位到文件避免后面需要多次执行命令浪费时间。

拿回来后，分别统计出各个socket状态的数量：

其中，最多的是FIN-WAIT-1和TIME-WAIT状态，总共有差不多17w个。它们一个是主动关闭socket的状态，一个是被动关闭socket的状态，都属于客户端socket的状态，所以问题应该出现在我们作为客户端主动发起的连接上身上。

在知晓了这一点之后，要做的应该是统计出连接的五元组信息，哪个IP、哪个端口最多，然后通过lsof命令定位到具体的程序。但是结合业务逻辑来分析，很容易就想到是我们设备上的代理程序，根本无需再统计这些信息。

因为我们设备是作为代理上网，代理程序势必要作为客户端去连接服务端，只有他才可能产生这么大规模的连接数。下一步排查的思路应该就是查它了，为什么它会产生这么多无法释放的socket。

3.2 抓包

从上面统计的状态来看，FIN-WAIT-1和TIME-WAIT状态都是处于我们已经做完了自己的事情，等待服务端响应时候的状态，我们自身出问题的可能性较小，多半是服务端除了问题导致的，所以再往下的排查思路应该是对端。

要确定是否是对端的问题，抓包就可以了，抓取wan口所有的TCP数据包，抓100w个：

tcpdump -i eth2 tcp -nnv -c 1000000 -w e2.pcap

拿到数据包后，第一步，统计所有FIN状态的数据包，在过滤器中输入：

tcp.flags.fin eq 1

为什么要统计FIN状态的数据包？
因为大量的socket都处于被关闭之后的状态，所以分析的重点就是FIN过程（即四次挥手）中那些连接。

统计出来，FIN包一共有45w个，占了所有包的45%：

这明显是一个不合理的数字，正常网络环境中不可能出现这么大比例的FIN包。随机找到一个连接追踪流分析：

左边被打马赛克的是设备的IP地址，右边的是服务端地址。服务端地址实际上是微信的服务器地址，通过应用特征分析属于微信下载小视频的流量。

很明显能看到，设备发送了FIN出去之后，并没有收到预期中的服务端回复，一直在重传等待服务端回复。直到差不多14秒之后才收到了服务端的回复信息。

到这里，就可以得到初步结论了，问题原因应该是下面二者之一：

微信服务器出了问题，回复数据包太慢了。
出口网络环境存在问题，运营商线路不稳定。

四、解决方案

解决FIN-WAIT-1和TIME-WAIT状态的方案百度有很多，基本上都是说调整fin超时时间或者其他内核参数来解决。

调整fin超时时间是调整下面这个内核参数：

理论上说这个方案是有效的，并且同时还调整了以下参数：

# 允许重用处于TIME-WAIT状态的socket
net.ipv4.tcp_tw_reuse = 1
# 开启快速回收socket
net.ipv4.tcp_tw_recycle = 1

然而实际上，调整之后，即使超时时间只有1秒，孤儿socket还是溢出了，因为内网的用户流量实在太大，即使只占用1秒对设备而言也是无法承受的。

下一步的思路只能是协调运营商和腾讯去排查了，看看为什么网络状态会如此之差！
是道德的沦丧，还是钱没给够？我猜是后者！

五、参考

The "Out of socket memory" error

C++中的异常处理

作者: 编程我只用CPP
时间: 2020-03-01
分类: 编程语言
评论

一、异常处理

1.1 异常的基本用法

C语言中因为没有异常处理（只能通过返回值来判断错误）机制一直被诟病，因此C++也引入了try...catch机制，使得C++也能像java/python一样来捕获异常。

它的用法和大多数其他语言基本一致，非常简单：

try {
    throw "HelloException";
} catch (const char *msg) {
    cout << msg << endl;
}

除此之外，C++标准库中还提供了一个标准异常类exception，内部有一个what函数可以打印异常信息：

try {
    throw std::exception();
} catch (exception &e) {
    cout << e.what() << endl;
}

执行后程序会抛出异常信息：

std::exception

不过std::exception类内部没有提供太多函数可以操作，只有基本的构造、拷贝构造以及析构函数等，自定义空间有限，很难完全依赖它打印出更详细的异常信息。因此，标准库中还提供了一些预定义的派生类来使用：

大部分的异常类都有提供自己的默认构造函数和带参构造函数，例如out_of_range异常类提供了一个char *的传入：

try {
    throw std::out_of_range("out of range");
} catch (std::out_of_range &e) {
    std::cout << e.what() << std::endl;
}

允许构造的时候带入错误信息字符串，执行what()的时候就会把这个字符串打印出来：

out of range

1.2 构造函数中的异常处理

构造函数执行初始化列表的时候，因为还没有执行到函数内部代码块，所以并不在try的捕获范围内，是无法捕获到异常的。

如若希望执行初始化列表的时候也能捕获异常，则需要在初始化列表之前加上try关键字：

my_exception() try: A(a), B(b) {}

二、自定义异常类

实际的项目中，往往会自己定义异常类，自定义异常类的方法很简单，从std::exception公有继承就可以了，内部还可以加上自己定义的成员和函数。

例如：

class my_exception : public std::exception {
public:
    int code;
    std::string msg;

    const char *what() const throw() {
        return msg.c_str();
    }

    my_exception(int code, const std::string &msg) : code(code), msg(msg) {}
};

使用方式：

try {
    throw my_exception(255, "this is a exception!");
} catch (my_exception &e) {
    cout << "ErrCode: " << e.code << ", ErrMsg: " << e.msg << endl;
    cout << e.what() << endl;
}

web安全之sql注入

作者: 编程我只用CPP
时间: 2020-02-29
分类: 编程语言
评论

一、关于SQL注入

sql注入是目前web应用中一种常见的攻击方式，通过恶意构造参数生成不可预期的sql语句，来完成不可告人的秘密。危害极大！它的影响主要有以下两点：

第一：拖库，拖库的意思是直接把整个数据表甚至库中的数据都拖出来了。当今的互联网环境中，数据毫无疑问在任何公司都是最宝贵的财富，一旦数据泄露，轻者造成经济损失，重者可能造成法律责任。

第二：删库，拖库的危害可能只是和他人共享了劳动成果，而删库就不同了，数据被共享了不说，还把数据都删了。这就是典型的——走别人的路，让别人无路可走！

近期闹得沸沸扬扬的“微盟删库”事件，因为运维人员把数据库删了，导致业务接近一周都没有恢复，股价直接下跌10+亿。可见“删库”的危害实在太大！

- 阅读剩余部分 -

MySQL报错Lost connection to MySQL server at 'reading initial communication packet'的解决办法

作者: 编程我只用CPP
时间: 2020-02-29
分类: 数据库
评论

使用mysql连接远程服务器时报错，在百度和google查找都没有找到能解决问题的办法：

ERROR 2013 (HY000): Lost connection to MySQL server at 'reading initial communication packet', system error: 0

分析应该是以下两个原因导致的：

服务器有防火墙，禁止3306端口的访问。
用户没有授权远程访问。

第二个错误首先被排除掉了，根据多年的经验来看，如果是没有权限报错应该是Access Deny或者Permission相关的错误，但是这个错误从没见过。

因此排查的重心就放在了防火墙上了，首先在服务端查看防火墙，防火墙是关闭的状态，并且3306端口允许所有主机访问：

说明不是第一种场景导致的。那么问题来了，这到底是个什么奇葩错误？没办法，只能上终极大招了——抓包。

使用tcpdump抓包：

tcpdump -i eth0 host 192.168.123.17 and tcp port 3306 -nnv -c 100 -w 3306.pcap

然后放到本地用wireshark打开，一个明显的错误就映在眼前了：

1130，没有权限访问，说明还是用户没有权限访问服务器导致：

气到吐血！不知道为什么没有权限客户端是这种鬼错误，直接打印服务端返回来的错误不就行了吗？wtf！
这是一台内网的虚拟机设备，root用户没有开外网访问权限，很久没有使用了不记得了。

解决办法

给root权限加上外网访问权限：

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456';
FLUSH PRIVILEGES;

I/O模型

作者: 编程我只用CPP
时间: 2020-02-29
分类: 编程语言
评论

一、I/O模型分类

unix环境下有5中IO模型：

阻塞式I/O
非阻塞式I/O
I/O多路复用
信号驱动I/O
异步I/O（POSIX中的aio_系列函数）

常用的是前三种方式，特别是多路I/O复用是目前使用最广泛的I/O模型。它不仅包含了阻塞和非阻塞，同时也包含了异步调用。非阻塞+异步是效率最高的I/O方式。

二、阻塞式I/O

阻塞I/O的意思是：调用读写函数时，系统会卡在当前函数，直到有数据可读或者可写才返回。

工作流程图：

三、非阻塞式I/O

非阻塞I/O的意思是：调用函数时如果没有数据可读，立马返回。然后开始轮询，直到有数据返回为止。

工作流程图：

四、多路I/O复用

多路I/O复用：通过多路IO复用模型（select/poll/epoll）同时监听多个套接字，等待某个套接字有数据到达时再执行系统调用。

工作流程图：

iterm2保存ssh连接信息

作者: 编程我只用CPP
时间: 2020-02-28
分类: 其他
评论

点击左上角Iterm2任务栏，依次选择Preferences - Profile：

点击左下角的+新增一个配置项，在右边的command处输入ssh登录的命令：

ssh root@x.x.x.x -p xxxxx

然后把tab页面切换到Advanced，点击Edit进入触发器编辑页面：

新弹框中新增一个触发器，触发器的作用是匹配终端输出的字符串然后执行相应动作。触发字符串是password:，Action选择Send Text，Parameters填入登录密码，密码最后以\n结束表示输完密码后换行：

配置好后退出，在任务栏的Profile中选择创建好的配置就可以自动登录到设备了：

[leetcode]226-翻转二叉树

作者: 编程我只用CPP
时间: 2020-02-26
分类: 数据结构和算法
评论

来源：力扣（LeetCode）

链接：https://leetcode-cn.com/problems/invert-binary-tree

著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

一、题目描述

翻转一棵二叉树。

示例：

输入：

     4
   /   \
  2     7
 / \   / \
1   3 6   9

输出：

     4
   /   \
  7     2
 / \   / \
9   6 3   1

二、题解

简单题，有两种思路：递归和队列。

2.1 递归

每遍历到一个节点，调整左右子树的值。然后分别递归遍历左右子树。

TreeNode *invertTree(TreeNode *root) {
    TreeNode *p;

    if (root == nullptr) {
        return nullptr;
    }

    // 调整左右子树
    p = root->left;
    root->left = root->right;
    root->right = p;

    // 遍历左右子树
    invertTree(root->left);
    invertTree(root->right);

    return root;
}

2.2 使用队列

把根节点放到队列中，然后依次访问队列中的节点，把每个节点的左右子树位置对换，然后把左右子节点放到栈中继续遍历。

TreeNode *invertTree(TreeNode *root) {
    queue<TreeNode *> q;
    TreeNode *node, *tmp;

    if (root == nullptr) {
        return nullptr;
    }

    // 根节点入队
    q.push(root);
    while (!q.empty()) {
        // 取队首元素
        node = q.front();
        q.pop();

        // 调换左右子树
        tmp = node->left;
        node->left = node->right;
        node->right = tmp;

        // 左子树入队
        if (node->left) {
            q.push(node->left);
        }
        // 右子树入队
        if (node->right) {
            q.push(node->right);
        }
    }

    return root;
}

三、备注

这个问题是受到Max Howell 的原问题启发的：

谷歌：我们90％的工程师使用您编写的软件(Homebrew)，但是您却无法在面试时在白板上写出翻转二叉树这道题，这太糟糕了。

其中的一个评论给也很有意思：

如果我是你，我会把白板从下到上翻转。然后告诉他：那，这就是我翻转的二叉树。

epoll中的边缘触发ET和水平触发LT模式

作者: 编程我只用CPP
时间: 2020-02-26
分类: 编程语言
评论

epoll中的触发模式有两种，边缘触发和水平触发，默认情况下使用的是水平触发。

边缘触发（ET）的意思是当电平出现变化的时候才触发事件，如果设置了边缘触发，执行epoll_wait时，内核检测到数据到达后立马返回到应用层。但是这仅仅只返回这一次，如果缓冲区中的数据没有读取完，再次执行epoll_wait时不会继续触发，需要下一次来数据了才能触发。也就是说，一次数据不会重复发送到应用层，不管你是否读完了。

而水平触发（LT）的意思是只要存在高电平就一直触发事件，执行epoll_wait时，只要检测到有数据就返回。如果缓冲区中存在没有读完的数据，下一次执行epoll_wait还会继续触发事件，无需等到下一次数据来。

两者的触发时间点：

相比之下，ET的效率高于LT模式，因为产生的事件数更少，可以减少内核往应用层空间复制数据的次数。在进行高性能网络编程的时候，往往都是选择非阻塞IO+ET触发模式，这种模式下可以做到想读数据的时候就读，不想读就不读。同时，读不到也不阻塞，大大增加了程序的灵活性。而不是说不管是否想读数据，都强制要求读。

项目中使用ET模式时遇到了一个问题：我们开发了一个socks5代理程序，可以用来代理上网。正常的程序代理都没有问题，就是网页中的实时视频使用代理会出现延时，延时能达到5-10秒。最后查了很久之后发现是ET触发模式导致的，发送数据的时候内核不会立马发出去，改成LT模式之后就好了。很神奇！