为了账号安全,请及时绑定邮箱和手机立即绑定

Pipework在CoreOS上的一个小bug

标签:
Docker

Intro

某日办公室要断电维护,作为 IT 狗需要在断电之前把办公室的服务器都停掉,来电后再把这些服务器启起来,其中有台服务器,跑的是 CoreOS 系统,上面一堆的 docker container。系统起来后,我发现这些 docker container,一个都不通,显然,踩着大坑了......

环境

  • CoreOS stable (1185.5.0)

  • 4.7.3-coreos-r3

  • ip utility, iproute2-ss150210

  • Pipework 20150123

现象

简言之,就是用 net=none 启动的 docker 实例,用 Pipework 配置 ip 地址后 ping 不通,用代码表示是这样的:

docker run -i -t -d \
    --name=test \
    -h test \
    --net none \
    centos:6;
sudo pipework br0 \
    -i eth0 \    test \
    10.0.0.3/24@10.0.0.1;# br0 是桥,ip 地址是 10.0.0.2# enp0s25 是直接在 10.0.0.0/24 网段的物理设备# enp0s25 同时是桥 br0 的一个 interface# eth0 是 docker 的网卡设备名# 这个测试 docker 的 ip 地址是 10.0.0.3# 10.0.0.0/24 的网关是 10.0.0.1

结果 10.0.0.0/24 段的其他机器上 ping 不通 10.0.0.3,

docker exec -it test /bin/bash

进入 docker 实例 test 内部以后也 ping 不通网关 10.0.0.1

原因

最早怀疑是 proxy_arp 的问题,但实际证明不是,最后发现是由于 docker 建立的 veth 设备(宿主机这端的)没有正确添加到桥设备 br0 里去,从而导致怎么都不通。

解决起来也很简单,直接用

sudo brctl addif br0 vethlxxx# vethlxxx 是这个 docker 实例在宿主机侧的网络设备

然后就通了。

分析问题

找到表面原因容易,可为什么没能正确把 vethlxxx 设备加到桥设备 br0 里去呢?也不是第一次跑 Pipework 了,以前一直是好的。

看了看 Pipework 的代码,并调试执行了几遍,发现这个问题不是百分百出现的,只是有很大一部分概率。

最后大概定位问题在 Pipework 的这几句代码上:

(ip link set "$LOCAL_IFNAME" master "$IFNAME" > /dev/null 2>&1) \
    || (brctl addif "$IFNAME" "$LOCAL_IFNAME")

和后面的

ip link set "$LOCAL_IFNAME" up

为什么这么说呢,因为在附录的那个链接里,有段话说道:

To add an interface (e.g. eth0) into the bridge, its state must be up:

这也就是说将某个 interface 加入到桥设备之前,必须要先保证这个 interface 的状态是 up 的,但显然在 Pipework 这份代码里不是这样的,这里是先加入到 br0,然后再将这个 interface 设置为 up 的。

为了证明这个,写了一段 bash 脚本,来模拟这个情况,具体如下(文件名叫 test.sh):

#!/bin/bashset -x

IFNAME="brtest"MTU=1500

(ip link add dev "$IFNAME" type bridge ) \
    || (brctl addbr "$IFNAME")
ip link set "$IFNAME" upfor i in {10..90}; do
    LOCAL_IFNAME="vethltest${i}"
    GUEST_IFNAME="vethgtest${i}"
    ip link add name "$LOCAL_IFNAME" \
        mtu "$MTU" type veth \
        peer name "$GUEST_IFNAME" \
        mtu "$MTU"#   ip link show "$LOCAL_IFNAME"
    if ((${i}%2)); then
        ip link set "$LOCAL_IFNAME" down    else
        ip link set "$LOCAL_IFNAME" up    fi
    (ip link set "$LOCAL_IFNAME" master "$IFNAME") \
        || (brctl addif "$IFNAME" "$LOCAL_IFNAME")
    ip link set "$LOCAL_IFNAME" updone

在 CoreOS 上执行:

chmod +x test.sh # 这句执行一遍即可sudo ./test.sh

最后再

brctl show brtest

看结果,发现:

  • vethltest${i}(i 为偶数的设备)都被正确添加到 brtest 里

  • vethltest${i}(i 为奇数的设备)有一些没有被正确添加到 brtest 里

结论:

在我所测试的平台(CoreOS)上,Pipework 是有问题的,原因来自于调用的命令 ip(来自于软件包 iproute2)

多说一句

随后我把测试程序 test.sh 拷贝到一台 CentOS 7 上跑,发现 CentOS 7 没有这个问题。



作者:haw_haw
链接:https://www.jianshu.com/p/97f19d4ace3e


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消