为Docker分配独立IP

2017-07-10

Docker的网络模型

熟悉docker的人都知道，它有以下四种网络模式

host
container
none
bridge

要理解Docker的网络，首先要发解的是Linux下面的network namespace。Linux Namespace是Linux提供的一种内核级别环境隔离的方法。其中network namepspace是六种隔离中的一种。
简单来说，如果将某一个进程的network namespace为设置为ns1，那么它将无法看到宿主机上（默认的名称空间下）的任何网络设备，路由规则，iptables,甚至是整个tcp/ip协议栈。在ns1下面创建的网络设备等等，在宿主机（默认的名称空间下）也同样看不到这些新创建的设备。这样，让用户感觉像是让我们的进程跑在了另外一个操作系统上面，仿佛我们新创建了一个操作系统环境。

了解了network namespace，我在再来了解docker的网络模式

host:
当使用host模式启动容器时，这个容器将不会创建自己的network namespace，而是和宿主机共用同一个。那么这样也就很好理解了，我们的进程创建的任何网络设备，监听的任何端口，宿主机都可以感知得到，也就是说，容器可以使用宿主机的ip和端口资源。
none:
使用none模式，Docker容器拥有自己的network Namespace，但是，并不为Docker容器进行任何网络配置。也就是说，这个Docker容器没有网卡、IP、路由等信息。需要我们自己为Docker容器添加网卡、配置IP等。该模式和host模式的一个重要的区别就是，none模式有自己的network namespace，而host模式没有。
container:
这个模式指定新创建的容器和已经存在的一个容器共享一个network Namespace，而不是和宿主机共享。新创建的容器不会创建自己的网卡，配置自己的 IP，而是和一个指定的容器共享 IP、端口范围等。同样，两个容器除了网络方面，其他的如文件系统、进程列表等还是隔离的。两个容器的进程可以通过 lo 网卡设备通信。
bridge:
bridge模式是docker的默认网络模式。当Docker进程启动时，会在主机上创建一个名为docker0的虚拟网桥，此主机上启动的Docker容器会连接到这个虚拟网桥上。虚拟网桥的工作方式和物理交换机类似，这样主机上的所有容器就通过交换机连在了一个二层网络中。从docker0子网中分配一个IP给容器使用，并设置docker0的IP地址为容器的默认网关。在主机上创建一对虚拟网卡veth pair设备，Docker将veth pair设备的一端放在新创建的容器中，并命名为eth0（容器的网卡），另一端放在主机中，以vethxxx这样类似的名字命名，并将这个网络设备加入到docker0网桥中。

bridge网络模式

作为docker默认的网络模式，是最复杂也是运用最广的模式。我们先来看一下，在这种模式下，它的网格拓扑结构。
docker-bridge
这里首先要讲解一下linux下虚拟网桥的概念：

虚拟网桥：
首先，它的主体部分是一个二层交换机，但是奇怪的是，我们在宿主机上查看linux网络设备docker0的时候，它会有一个ip地址（作者主机上的docker0）

稍微有点网络常识的人会知道，交换机是二层设备，是没有ip地址的。那么这个ip地址又是怎么来的呢。
我们可以思考一下，假设你买了一个物理交换机回来以后，我们的主机要如何使用这个交换机？答案很简单，用一根网线将主机上的某一块网卡接到交换机的一个端口上面！是的，那么docker0设备上的ip实际上就是主机上连接交换机网卡的ip。
所以，linux的虚拟网桥实际上包括三部分：
- 一个L2的交换机
- 一个主机的网卡
- 一根连接以上两部分的网线
veth pair
了解了虚拟网桥，我们再来看一下另一个linux的虚拟网络设备： veth-pair
它实际上是一对虚拟网卡,从一张veth网卡发出的数据包可以直接到达它的peer veth,两者之间存在着虚拟链路。也就是说，这种虚拟设备包括以下三部分：
- 一个安装在主机上的网卡
- 另一个安装在主机上的网卡
- 一根连接这两个网卡的网线
  大家可能会觉得奇怪，这样的网络设备有什么用，数据从一个网卡出去，再从另外一块网卡进来？其实，这种网络设备有一个特点，就是两块网卡可以分别处于不同的network namespace。
  
  docker正是利用了这种特性，将其中的一块网卡添加到容器内部，另外一块留在宿主机上面，大家通过ifconfig命令在宿主机可以看到vethxxx这样的网络设备，但是这样的网络设备它是没有ip地址的。
  
  这又是为什么呢？这要回到上面提到的虚拟网桥。实际上这块网卡被添加到了docker0的交换机设备上，变成了该交换机上的一个端口，交换机的端口没有ip也就很正常了。
  我们可以通过brctl命令，将一个物理设备添加到一个虚拟网桥上面：
  1
  # brctl addif docker0 vethae36b9b
  这个命令的意思是将vethae36b9b这个网络设备添加到docker0这个网桥上面。
  还可以查看已添加到网桥上面的设备
  1
  2
  3
  # brctl show docker0
  bridge name bridge id STP enabled interfaces
  docker0 8000.0242f2558144 no vethae36b9b
  到此，我们来理解bridge网络模式的拓扑结构就很简单了，这是不是非常像我们家庭网络的结构：一个个容器代表了家里的一台台计算机，而宿主机这时候变成了连接外网的路由器了。在这个子网内部的各个容器之间是可以互相访问的，容器可以访问外部网络，而外部网络要访问内部容器，就必须通过nat端口映射才行。

给docker容器分配一个和宿主机处于同一网段的ip

bridge网络有一个问题，就是多个容器要同时对外暴露服务时，会竞争宿主机上面的端口，导致端口资紧张的情况发生。那么我们能不能给docker分配一个和宿主机处于同一个网段的ip，这样，外部网络就可以直接访问该容器了呢?答案当然是可以，我们现在就利用上面的知识，来更改一下docker的网络拓扑结构。
docker-bridge2
这里我们为了避免连接不上宿主机，另外创建一个虚拟网桥br0
em1是宿主机上的网卡，它的ip为172.24.133.39/24。我们的做法很简单，将em1添加到docker0网桥上，然后将ip（172.24.133.39）设置给br0设备。

# brctl addbr br0
# brctl stp br0 off
# ifconfig br0 172.24.133.39/24 up
# brctl addif br0 em1
# ifconfig em1 0.0.0.0
# route add default gw 172.24.133.254 dev br0

创建一对veth pair,并将其中一个添加到br0中,另一个设置给容器（docker的network namespace的名称就是容器id)

# ip link add peerA type veth peer name peerB 
# brctl addif br0 peerA
# ip link set peerA up
# ip link set peerB netns ${container-pid}

然后，进入到容器中，将eth1的ip设置为172.24.133.253

# ip link set dev peerB name eth1 
# ip link set eth1 up
# ip addr add 172.24.133.253/24 dev eth1
# route add default gw 172.24.133.254 dev eth1

此时，我们就可以通过172.24.133.253这个ip直接访问容器了
（全文完）

展开全文 >>

基于Ingress的BlueGreenDeployment

2017-04-24

Blue-Green Deployment

Blue-Green是一种无宕机的升级技术，和滚动升级不同，蓝绿部署是启动一个运行着新版应用的副本的集群，旧版的应用依旧提供服务，直到新的应用真正启动并配置好负载均衡器。这种方式的一个好处是任何时候都只有一个版本的应用在运行，减少了处理多个并发版本带来的复杂性。当副本个数很少时，蓝绿部署也能很好地工作。

在传统的发布中，新版本的服务只有上线以后（此时新版本的软件已经暴露给了用户）测试人员才能够进行线上测试，实际上这个时候的测试的意义并不是太大，因为如果存在bug的话，那么这个bug已经暴露给了最终用户，要解决bug要么继续发布更新的版本，要么进行线上回滚，这对于用户来说是一种非常不友好的体验，对于开发和测试人员也产生了一定的压力。

蓝绿发布将新版本的服务发布到一个新的生产环境中，该环境和旧版本的环境完全一致，唯一的区别是最终用户是访问不到新版本的服务，这时候只有测试人员可以访问。这样，就有办法保证测试人员有足够的时间进行系统测试。

当测试人员完成测试后，再将流量切换至新版本服务。

切换成功以后，再将旧版本的环境进行删除。

在kubernetes中实现蓝绿发布

kubernetes本身并不提供蓝绿发布的功能，包括在deployment中，它的发布策略只包含滚动发布（rolling update）和重建发布(recreate)。要实现蓝绿发布，我们必须将其业务提取到自己的管理层来。

准备

一个kubernetes集群环境
至少有一个Ingress Controller。（我们将使用Ingress来进行host和service的绑定）

blue-deployment

第一步，我们创建一个verion 为 1 的deployment。

deployment-blue.yaml:

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: demo-deployment-blue
spec:
  replicas: 3
  template:
    metadata:
      labels:
        app: demo
        track: blue
    spec:
      volumes:
      - name: shared-data
        emptyDir: {}
      restartPolicy: Always

      containers:

      - name: nginx
        image: nginx:1.7.9
        ports:
        - containerPort: 80
        volumeMounts:
        - name: shared-data
          mountPath: /usr/share/nginx/html

      - name: debian-container
        image: debian
        volumeMounts:
        - name: shared-data
          mountPath: /pod-data
        command: ["/bin/sh"]
        args: ["-c", "echo hello this is version 1 > /pod-data/index.html && sleep 1000000000"]


kubectl create -f deployment-blue.yaml

kubectl get pod -l app=demo --show-labels

demo-deployment-blue-2523566789-641sj    2/2       Running   0          1h        app=demo,pod-template-hash=2523566789,track=blue
demo-deployment-blue-2523566789-h88ch    2/2       Running   0          1h        app=demo,pod-template-hash=2523566789,track=blue
demo-deployment-blue-2523566789-kqsdg    2/2       Running   0          1h        app=demo,pod-template-hash=2523566789,track=blue

blue-service

创建blue-service

service-blue.yaml:

apiVersion: v1
kind: Service
metadata:
  name: demo-service-blue
  labels:
    app: demo-service-blue
spec:
  ports:
  - port: 80
    targetPort: 80
    protocol: TCP
  selector:
    app: demo
    track: blue

kubectl create -f service-blue.yaml

kubectl describe svc demo-service-blue

Name:                   demo-service-blue
Namespace:              default
Labels:                 app=demo-service-blue
Selector:               app=demo,track=blue
Type:                   ClusterIP
IP:                     10.254.1.251
Port:                   <unset> 80/TCP
Endpoints:              172.30.40.26:80,172.30.40.28:80,172.30.56.18:80
Session Affinity:       None
No events.

该Service通过app=demo,track=blue的标签找到了三个终节点(我们在deployment中指定了复本数为3)

stable-ingress

最后我们通过stable-ingress将该服务暴露给最终用户。

ingress-stable.yaml:

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
  name: demo-ingress-stable
  annotations:
    kubernetes.io/ingress.class: "nginx"
    ingress.kubernetes.io/force-ssl-redirect: "false"
spec:
  rules:
  - host: demo-stable
    http:
      paths:
      - backend:
          serviceName: demo-service-blue
          servicePort: 80
        path: /

验证：

kubectl create -f ingress-stable.yaml

kubectl get ing demo-ingress-stable

NAME                  HOSTS         ADDRESS         PORTS     AGE
demo-ingress-stable   demo-stable   172.24.133.92   80        1h

最后我们访问一下该host

1 2	curl 172.24.133.92 -H "HOST:demo-stable" hello this is version 1

green-deployment

接下来，我们打算发布一个新的服务版本（version 2）。我们先不删除旧版本的服务。而是直接发布一个新的deployment,我们称它为deployment-green:

deployment-green.yaml:

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: demo-deployment-green
spec:
  replicas: 3
  template:
    metadata:
      labels:
        app: demo
        track: green
    spec:
      volumes:
      - name: shared-data
        emptyDir: {}
      restartPolicy: Always

      containers:

      - name: nginx
        image: 172.24.133.2:5000/nginx:1.7.9
        ports:
        - containerPort: 80
        volumeMounts:
        - name: shared-data
          mountPath: /usr/share/nginx/html

      - name: debian-container
        image: 172.24.133.2:5000/debian
        volumeMounts:
        - name: shared-data
          mountPath: /pod-data
        command: ["/bin/sh"]
        args: ["-c", "echo hello this is version 2 > /pod-data/index.html && sleep 1000000000"]

kubectl create -f deployment-green.yaml

kubectl get pod -l app=demo --show-labels

NAME                                     READY     STATUS    RESTARTS   AGE       LABELS
demo-deployment-blue-2523566789-641sj    2/2       Running   0          1h        app=demo,pod-template-hash=2523566789,track=blue
demo-deployment-blue-2523566789-h88ch    2/2       Running   0          1h        app=demo,pod-template-hash=2523566789,track=blue
demo-deployment-blue-2523566789-kqsdg    2/2       Running   0          1h        app=demo,pod-template-hash=2523566789,track=blue
demo-deployment-green-3779826479-7nfx3   2/2       Running   0          1h        app=demo,pod-template-hash=3779826479,track=green
demo-deployment-green-3779826479-ck8v0   2/2       Running   0          1h        app=demo,pod-template-hash=3779826479,track=green
demo-deployment-green-3779826479-n40kj   2/2       Running   0          1h        app=demo,pod-template-hash=3779826479,track=green

这里可以看到新旧版本一共六个pod，我们能过标签track将它们区分开来。

green-service

接下来创建新版本的service

service-green.yaml:

apiVersion: v1
kind: Service
metadata:
  name: demo-service-green
  labels:
    app: demo-service-green
spec:
  ports:
  - port: 80
    targetPort: 80
    protocol: TCP
  selector:
    app: demo
    track: green

kubectl create -f service-green.yaml

kubectl describe svc demo-service-green

Name:                   demo-service-green
Namespace:              default
Labels:                 app=demo-service-green
Selector:               app=demo,track=green
Type:                   ClusterIP
IP:                     10.254.125.14
Port:                   <unset> 80/TCP
Endpoints:              172.30.40.29:80,172.30.56.20:80,172.30.56.21:80
Session Affinity:       None
No events.

canary-ingress

接下来创建一个专门针对测试人员的ingress。它的host为demo-canary。

ingress-canary.yaml:

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
  name: demo-ingress-canary
  annotations:
    kubernetes.io/ingress.class: "nginx"
    ingress.kubernetes.io/force-ssl-redirect: "false"
spec:
  rules:
  - host: demo-canary
    http:
      paths:
      - backend:
          serviceName: demo-service-green
          servicePort: 80
        path: /

kubectl create -f ingress-canary.yaml

kubectl get ing demo-ingress-canary

NAME                  HOSTS         ADDRESS         PORTS     AGE
demo-ingress-canary   demo-canary   172.24.133.92   80        2h

这时候，分别能过两个不同的host进行访问

curl 172.24.133.92 -H "HOST:demo-stable"
hello this is version 1

curl 172.24.133.92 -H "HOST:demo-canary"                         
hello this is version 2

这个时候，最终用户还是能过host:demo-stable来进行访问，它所访问到的服务版本为1，而测试人员可以通过host:demo-canary访问版本2。

切换

当测试人员完成测试，这个时候就可以将流量引到版本2
修改 ingress-stable.yaml:

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
  name: demo-ingress-stable
  annotations:
    kubernetes.io/ingress.class: "nginx"
    ingress.kubernetes.io/force-ssl-redirect: "false"
spec:
  rules:
  - host: demo-stable
    http:
      paths:
      - backend:
          serviceName: demo-service-green
          servicePort: 80
        path: /

kubectl apply -f ingress-stable.yaml

curl 172.24.133.92 -H "HOST:demo-stable"
hello this is version 2

这时候，用户流量被引到版本2，发布成功。

清理

1
2
3

kubectl delete ing demo-canary
kubectl delete svc demo-service-blue
kubectl delete deployment demo-deployment-blue

按顺序清理以上资源。

缺陷

关于蓝绿发布的缺陷，目前主要有两点：

在发布期间要比原来多占用一倍的服务器资源。
需要维护一份当前用户流量所至的环境的数据（例如current:blue）。

但相比旧的发布流程，蓝绿发布所带来的系统可用性的提升和用户体验的提升是非常巨大的。
（全文完）

展开全文 >>

Kubernetes Ingress（1）简介

2017-04-13

为什么选择Ingress

kubernets的service和pod在集群内部有着集群网络统一管理和分配的ip地址，但是这些ip地址只有在集群内部可见，任何集群外部的节点都无法直接访问内部节点。显然，我们必须通过其它的渠道来访问。

目前，kubernetes提供了三种访问的方式：

NodePort
LoadBalance
Ingress

其中，NodePort对于主机端口资原的要求非常高，无法应用于大规模的企业私有云，而LoadBalance方式只有在像GCE、Asure等等这些云服务提供商上面才能使用。因此，对于私有云可以采用的最佳入口方式非Ingress莫属。

什么是Ingress

Ingress是一系列允许入站链接到达集群内部服务的规则的集合。
未使用Ingress，外部网络无法到达内部服务

  internet
      |
------------
[ Services ]

Ingress的加入则使外部网络有了访问内部服务的途径

 internet
     |
[ Ingress ]
--|-----|--
[ Services ]

Ingress可以为服务配置一系列的访问域名，负载均衡策略，SSL等等。

Ingress Resource

Ingress和Pod、Servce等等类似，被定义为kubernetes的一种资源
它的一个简单的示例如下：

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
  name: test-ingress
spec:
  rules:
  - host: foo.bar.com
  - http:
      paths:
      - path: /testpath
        backend:
          serviceName: test
          servicePort: 80

这段Ingress的描述的意思是：将host为foo.bar.com且路径为/testpath的访问引导到test:80这个服务上面。

Ingress Controller

本质上说Ingress只是存储在etcd上面一些数据，我们可以能过kubernetes的apiserver添加删除和修改ingress资源。那么真正让整个Ingress运转起来的一个重要组件是Ingress Controller。
然而，这个Controller并不像其它Controller一样作为kubernetes的核心组件在master启动的时候一起启动起来，它实际上是kubernetes的一个扩展，我们必须选择一个适合自己的Ingress Controller，或者自己去实现一个。

对于Ingress Controller官方的定义是这样子的：

An Ingress Controller is a daemon, deployed as a Kubernetes Pod, that watches the apiserver’s /ingresses endpoint for updates to the Ingress resource. Its job is to satisfy requests for ingress.

Ingress Controller作为一个守户进程，通过监听apiserver的ingresses资源变化，并且根据其指定的规则建立起外部网络访问内部服务的通道。对于官方描述的 deployed as a Kubernetes Pod，实际上是没办法运用到生产环境当中去的，这个我们在后面会提到这个问题，并且会有相应的解决方案。

Ingress Controller的架构

ingress-controller

上图展示了一个nginx ingress controller的部署架构图，ingress controller通过轮询监听apiserver的方式来获取ingress资源的变化，将ingress资源存储到本地缓存，并通知nginx进行相应的配置修改的加载。
ingress controller监控了ingress、service、endpoint、secret、node、configmap一系列资源，一旦资源发生了变化（包括增加、删除和修改），会立即通知backend，例如nginx等。
为了减少对apiserver的请求次数，nginx controllder会将每次请求在本地进行缓存，该缓存import了kubernetes提供的包”k8s.io/kubernetes/pkg/client/cache”。

Ingress Controller的漂移问题

在官方定义的ingress controller，将它部署在kubernetes内部，以pod的方式存在kubernetes集群内部。既然是pod，那么就会存在漂移的问题，而作为外部网络的访问入口，我们是不允许这样的情况发生的。其中一种解决方案是通过VIP和服务发现来解决，但这无疑增加了整个系统的复杂度。
其实要解决漂移的问题很简单，我们只要将其部署在kubernetes集群外部，那么它就不受kubernetes的控制，自然而然就不会漂移了。
细心的读者可能会发现部署在外部的话，那么集群内外的网络通讯又会成为一个问题。笔者的集群环境的网络覆盖方案选择的是flannel，在每一个node上面初始化kubernetes环境的时候，都会一并装上flannel。
关于flannel的原理，这里有一篇文章分析得很详细DockOne技术分享（十八）：一篇文章带你了解Flannel

这是flannel的原理图：
flannel

通过该图我们可以看到通过docker0和flannel0这两块网卡打通了宿主机和集群内部的一个网络通道。

笔记在自己的节点上进行了验证
flannel-if

也就是说只要部署在该宿主机上的程序，都可以访问该节点上的任何docker容器，至于其它节点的docker容器，通过flanneld到节点的物理网卡，在flanned的时候数据包会被另外一种协议包装（如UDP、VxLAN、AWS VPC和GCE路由）成packet，该包到了另外一个节点的物理网卡再交由flanned进行解包，之后再通过虚拟的flannel和docker两块网卡路由到容器内部。

因此，我们可以以docker容器和方式或者直接以宿主机进程的方式部署我们的ingress controller。

总结

至此我们简单的介绍了kubernetes ingress 的整体结构的设计，还有ingress controller的实现机制以及部署问题等，在下一篇文章中我们会通过ingress controller的源码分析，详细讲解它的实现原理。

展开全文 >>

Kubernetes Ingress（2）Controller源码分析

2017-04-13

经过上一篇文章的介绍，我们简单了解了整个Ingress的运行机制，这里我们将通过Ingress Controller的源码来更深入分析其运行过程。
要了解本文的内容我们要先了解一个概念，就是kuberentes的events

events

关于events的概念，kubernetes中文社区有一个系列文章剖析得很清析

文章详细介绍了Events的概念，从哪里产生以及去向哪里等，以及更复杂的Events聚合操作。事实上，kubernetes正是通过Events让Ingress Controller知道资源的变化情况。

开始

从官方提供的一个Ingress Controller简单实现的示例中，我们可以找到整个框架代码的入口

func main() {
	dc := newDummyController()
	ic := controller.NewIngressController(dc)
	defer func() {
		log.Printf("Shutting down ingress controller...")
		ic.Stop()
	}()
	ic.Start()
}

main函数的工作内容十分简单，就是实例化一个IngressContrller并将其Start起来。

1	import "k8s.io/ingress/core/pkg/ingress/controller"

这是controller框架核心所在的包
我们看一下NewIngressController的定义

1 2	func NewIngressController(backend ingress.Controller) *GenericController { }

该方法接收一个ingress.Controller接口，并返回一个GenericController结构体的指针
再来看一下ingress.Controller接口的定义

type Controller interface {
	healthz.HealthzChecker
	Reload(data []byte) ([]byte, bool, error)
	OnUpdate(Configuration) ([]byte, error)
	SetConfig(*api.ConfigMap)
	SetListers(StoreLister)
	BackendDefaults() defaults.Backend
	Info() *BackendInfo
	OverrideFlags(*pflag.FlagSet)
	DefaultIngressClass() string
}

这个接口就是ingress controller留给用户自已实现代码的地方，只要实现了这个接口，那么你自定义的ingress controller也就完成了。这里先点一下最重要的两个方法 OnUpdate和Reload
当资源发生变化时，框架会调用OnUpdate方法，并将资源配置信息传入，用户根据这些配置信息生成配置（以[]byte返回），然后框架再调用Reload方法，用户在这个方法中可以重新加载配置(例如 nginx -r reload) 嘿嘿是不是一个很典型的模板方法！！

NewIngressController的主要工作是初始化命令行参数，接着在方法最后调用包内私有函数newIngressController

newIngressController

这个包内方法是整个框架核心所在，它真正的初始化了IngressController
来看函数定义：

1 2	func newIngressController(config Configuration) GenericController { }

这里的Configuration包含了从命令行传进来的参数配置，以及用户实现的一个Controller接口

type Configuration struct {
	Client clientset.Interface
	ResyncPeriod   time.Duration
	DefaultService string
	IngressClass   string
	Namespace      string
	ConfigMapName  string
	TCPConfigMapName string
	UDPConfigMapName      string
	DefaultSSLCertificate string
	DefaultHealthzURL     string
	DefaultIngressClass   string
	PublishService string
    //用户实现的接口
	Backend ingress.Controller
	UpdateStatus bool
	ElectionID   string
}

这里的Backed就是上文提到的Controller接口，接下来看一下该方法做了哪些事情

eventBroadcaster := record.NewBroadcaster()
eventBroadcaster.StartLogging(glog.Infof)
eventBroadcaster.StartRecordingToSink(&unversionedcore.EventSinkImpl{
    Interface: config.Client.Core().Events(config.Namespace),
})

ic := GenericController{
    cfg:             config,
    stopLock:        &sync.Mutex{},
    stopCh:          make(chan struct{}),
    syncRateLimiter: flowcontrol.NewTokenBucketRateLimiter(0.1, 1),
    recorder: eventBroadcaster.NewRecorder(api.EventSource{
        Component: "ingress-controller",
    }),
    sslCertTracker: newSSLCertTracker(),
}

ic.syncQueue = task.NewTaskQueue(ic.sync)
ic.secretQueue = task.NewTaskQueue(ic.syncSecret)

这段代码做了三件事情：
1.初始化了一个事件广播器
2.初始化了GenericController，将前面的配置传过去，并且new了一个事件的recorder，这个recorder用来在后面产生事件。
3.初始化了syncQueue和secretQueue

这两个Queue有什么作用呢?来看一下它的定义和注释:

// NewTaskQueue creates a new task queue with the given sync function.
// The sync function is called for every element inserted into the queue.
func NewTaskQueue(syncFn func(interface{}) error) *Queue {
	return NewCustomTaskQueue(syncFn, nil)
}

注释已经解释得很清楚了，这个方法所创建的queue，每接收一个元素就会调用一个syncFn，并将该元素作为该方法的参数传进去。可以看到ic.syncQueue和ic.secretQueue对应的处理方法为ic.sync和ic.syncSecret，这两个方法到底做了些什么事情，我们后面再分析。
这里还有一个问题就是为什么不直接调用syncFn而要通过队列呢，很显然这里队列的作用就是将并行的事情串行化掉而已。

kubernetes客户端的资源监听机制

kubernetes的资源监听机制是一个相对比较复杂的过程，首先来看一下这段定义
在 “k8s.io/kubernetes/pkg/client/cache” 包下面存在着

type ResourceEventHandlerFuncs struct {
	AddFunc    func(obj interface{})
	UpdateFunc func(oldObj, newObj interface{})
	DeleteFunc func(obj interface{})
}

这样一样结构体，该结构体实现了以下接口

type ResourceEventHandler interface {
	OnAdd(obj interface{})
	OnUpdate(oldObj, newObj interface{})
	OnDelete(obj interface{})
}

func (r ResourceEventHandlerFuncs) OnAdd(obj interface{}) {
	if r.AddFunc != nil {
		r.AddFunc(obj)
	}
}

func (r ResourceEventHandlerFuncs) OnUpdate(oldObj, newObj interface{}) {
	if r.UpdateFunc != nil {
		r.UpdateFunc(oldObj, newObj)
	}
}

func (r ResourceEventHandlerFuncs) OnDelete(obj interface{}) {
	if r.DeleteFunc != nil {
		r.DeleteFunc(obj)
	}
}

接着再来看一下NewInformer函数

func NewInformer(
	lw ListerWatcher,
	objType runtime.Object,
	resyncPeriod time.Duration,
	h ResourceEventHandler,
) (Store, *Controller){
}

这个函数初始化一个消息通知器，ListerWatcher指定了监听资源的方法，一旦资源发生了变化（增、删、改），就会触发ResourceEventHandler相应的函数。这里是一个观察者模式的简化版，将多播委托简化成单播委托，并且将多个事件聚合在了一起。好了，这里要说一下整个controller最重要的list和watch模型。

List和Watch

我们先来看一下这段代码：

1
2
3

ic.ingLister.Store, ic.ingController = cache.NewInformer(
		cache.NewListWatchFromClient(ic.cfg.Client.Extensions().RESTClient(), "ingresses", ic.cfg.Namespace, fields.Everything()),
		&extensions.Ingress{}, ic.cfg.ResyncPeriod, ingEventHandler)

顺藤摸瓜：

func NewListWatchFromClient(c Getter, resource string, namespace string, fieldSelector fields.Selector) *ListWatch {
	listFunc := func(options api.ListOptions) (runtime.Object, error) {
		return c.Get().
			Namespace(namespace).
			Resource(resource).
			VersionedParams(&options, api.ParameterCodec).
			FieldsSelectorParam(fieldSelector).
			Do().
			Get()
	}
	watchFunc := func(options api.ListOptions) (watch.Interface, error) {
		return c.Get().
			Prefix("watch").
			Namespace(namespace).
			Resource(resource).
			VersionedParams(&options, api.ParameterCodec).
			FieldsSelectorParam(fieldSelector).
			Watch()
	}
	return &ListWatch{ListFunc: listFunc, WatchFunc: watchFunc}
}

到这里我们找到了controller如何和apiserver交互的代码，既然找到了，那我们就动起手来，看看它具体干了一些什么事睛。

list


func createApiserverClient(apiserverHost string, kubeConfig string) (*client.Clientset, error) {

	clientConfig := clientcmd.NewNonInteractiveDeferredLoadingClientConfig(
		&clientcmd.ClientConfigLoadingRules{ExplicitPath: kubeConfig},
		&clientcmd.ConfigOverrides{ClusterInfo: clientcmdapi.Cluster{Server: apiserverHost}})

	cfg, err := clientConfig.ClientConfig()
	if err != nil {
		return nil, err
	}

	cfg.QPS = defaultQPS
	cfg.Burst = defaultBurst
	cfg.ContentType = "application/vnd.kubernetes.protobuf"
	proxy := func(_ *http.Request) (*url.URL, error) {
		return url.Parse("http://127.0.0.1:8888")
	}
	cfg.Transport = &http.Transport{Proxy: proxy}

	glog.Infof("Creating API server client for %s", cfg.Host)

	client, err := client.NewForConfig(cfg)

	if err != nil {
		return nil, err
	}
	return client, nil
}

kubeClient, err := createApiserverClient(*apiserverHost, *kubeConfigFile)
if err != nil {
	fmt.Println(err)
}

list, err := kubeClient.Extensions().RESTClient().
	Get().
	Namespace("default").
	Resource("ingresses").
	VersionedParams(&api.ListOptions{ResourceVersion: "0"}, api.ParameterCodec).
	FieldsSelectorParam(fields.Everything()).
	Do().
	Get()

在创建client的时候我们设置了http代理，这里我用了fiddler工具用于抓取http的请求内容。接着我们请求了default名称空间下的ingresses资源列表，设置了resourceVersion为0
在fiddler中我们发现其请求了/apis/extensions/v1beta1/namespaces/default/ingresses?resourceVersion=0这个api
并且返回了一下的内容

{
  "kind": "IngressList",
  "apiVersion": "extensions/v1beta1",
  "metadata": {
    "selfLink": "/apis/extensions/v1beta1/namespaces/default/ingresses",
    "resourceVersion": "2264497"
  },
  "items": [
    {
      "metadata": {
        "name": "nginx-test",
        "namespace": "default",
        "selfLink": "/apis/extensions/v1beta1/namespaces/default/ingresses/nginx-test",
        "uid": "fa01f640-231f-11e7-b7f6-ecf4bbc532cc",
        "resourceVersion": "2264486",
        "generation": 1,
        "creationTimestamp": "2017-04-17T03:43:10Z",
        "annotations": {
          "ingress.kubernetes.io/force-ssl-redirect": "false",
          "kubernetes.io/ingress.class": "nginx"
        }
      },
      "spec": {
        "rules": [
          {
            "host": "stickyingress.example.com",
            "http": {
              "paths": [
                {
                  "path": "/",
                  "backend": {
                    "serviceName": "echoheaders-x",
                    "servicePort": 80
                  }
                }
              ]
            }
          }
        ]
      },
      "status": {
        "loadBalancer": {}
      }
    },
    {
      "metadata": {
        "name": "yangz-lb-test",
        "namespace": "default",
        "selfLink": "/apis/extensions/v1beta1/namespaces/default/ingresses/yangz-lb-test",
        "uid": "fef1d670-231f-11e7-b7f6-ecf4bbc532cc",
        "resourceVersion": "2264497",
        "generation": 1,
        "creationTimestamp": "2017-04-17T03:43:18Z",
        "annotations": {
          "ingress.kubernetes.io/force-ssl-redirect": "false",
          "kubernetes.io/ingress.class": "nginx"
        }
      },
      "spec": {
        "rules": [
          {
            "host": "www.yangz.com",
            "http": {
              "paths": [
                {
                  "path": "/",
                  "backend": {
                    "serviceName": "yangz-lb-test",
                    "servicePort": 80
                  }
                }
              ]
            }
          }
        ]
      },
      "status": {
        "loadBalancer": {}
      }
    }
  ]
}

这段json列出了当前default名称空间下的所有ingress资源的情况。有了这些列表数据（可以使用同样的方法列出service,node,secret等其它资源），对于我们生成backend的配置（如nginx的配置）就已经足够了，我们可以通过不停的轮询这个接口，一旦发现数据发生了变化，我们就重新生成配置并加载它。一切工作到这里似乎就可以结束了，但是细心的读者可能会发生我们还有一watch接口。这里要记住list接口返回的resourceVersion:2264497

watch

watch, err := kubeClient.Extensions().RESTClient().
		Get().
		Prefix("watch").
		Namespace("default").
		Resource("ingresses").
		VersionedParams(&api.ListOptions{ResourceVersion: "2264497"}, api.ParameterCodec).
		FieldsSelectorParam(fields.Everything()).
		Watch()

通过fiddler可以看到请求了/apis/extensions/v1beta1/watch/namespaces/default/ingresses?resourceVersion=2264497这个接口，值得注意的是在返回的http头是这样子的

HTTP/1.1 200 OK
Content-Type: application/vnd.kubernetes.protobuf;stream=watch
Date: Mon, 17 Apr 2017 03:54:47 GMT
Transfer-Encoding: chunked

这个时候这个http请求是没有Content-Lenth头，而且服务端一直hold住这个请求，注意Transfer-Encoding: chunked。对于http服务端主动通知客户端的，除了轮询外，还有使用这种方式的，这也是大多数web聊天工具使用的方式。
这时候我们发现通过resourceVersion=2264497请求不到任何的东西，这是因为对于2264497这个版本号来说，当前ingress资源并没有发生任何变化
我们再做以下实验:在master机上运行kubectl delete -n default ing –all
这个命令删除default名称空间下面的所有ingress资源，这时候可以发下刚才hold住的http请求立即返回了一些信息：

{
    "type": "DELETED",
    "object": {
        "kind": "Ingress",
        "apiVersion": "extensions/v1beta1",
        "metadata": {
            "name": "nginx-test",
            "namespace": "default",
            "selfLink": "/apis/extensions/v1beta1/namespaces/default/ingresses/nginx-test",
            "uid": "fa01f640-231f-11e7-b7f6-ecf4bbc532cc",
            "resourceVersion": "2273842",
            "generation": 1,
            "creationTimestamp": "2017-04-17T03:43:10Z",
            "annotations": {
                "ingress.kubernetes.io/force-ssl-redirect": "false",
                "kubernetes.io/ingress.class": "nginx"
            }
        },
        "spec": {
            "rules": [
                {
                    "host": "stickyingress.example.com",
                    "http": {
                        "paths": [
                            {
                                "path": "/",
                                "backend": {
                                    "serviceName": "echoheaders-x",
                                    "servicePort": 80
                                }
                            }
                        ]
                    }
                }
            ]
        },
        "status": {
            "loadBalancer": {
                
            }
        }
    }
}{
    "type": "DELETED",
    "object": {
        "kind": "Ingress",
        "apiVersion": "extensions/v1beta1",
        "metadata": {
            "name": "yangz-lb-test",
            "namespace": "default",
            "selfLink": "/apis/extensions/v1beta1/namespaces/default/ingresses/yangz-lb-test",
            "uid": "fef1d670-231f-11e7-b7f6-ecf4bbc532cc",
            "resourceVersion": "2273843",
            "generation": 1,
            "creationTimestamp": "2017-04-17T03:43:18Z",
            "annotations": {
                "ingress.kubernetes.io/force-ssl-redirect": "false",
                "kubernetes.io/ingress.class": "nginx"
            }
        },
        "spec": {
            "rules": [
                {
                    "host": "www.yangz.com",
                    "http": {
                        "paths": [
                            {
                                "path": "/",
                                "backend": {
                                    "serviceName": "yangz-lb-test",
                                    "servicePort": 80
                                }
                            }
                        ]
                    }
                }
            ]
        },
        "status": {
            "loadBalancer": {
                
            }
        }
    }
}

json显示了我们所删掉的ingress资源信息，注意其中的resourceVersion，这个时候我们修改watch接口中的resourceVersion为2273842的话，那么其返回内容会变成

{
    "type": "DELETED",
    "object": {
        "kind": "Ingress",
        "apiVersion": "extensions/v1beta1",
        "metadata": {
            "name": "yangz-lb-test",
            "namespace": "default",
            "selfLink": "/apis/extensions/v1beta1/namespaces/default/ingresses/yangz-lb-test",
            "uid": "fef1d670-231f-11e7-b7f6-ecf4bbc532cc",
            "resourceVersion": "2273843",
            "generation": 1,
            "creationTimestamp": "2017-04-17T03:43:18Z",
            "annotations": {
                "ingress.kubernetes.io/force-ssl-redirect": "false",
                "kubernetes.io/ingress.class": "nginx"
            }
        },
        "spec": {
            "rules": [
                {
                    "host": "www.yangz.com",
                    "http": {
                        "paths": [
                            {
                                "path": "/",
                                "backend": {
                                    "serviceName": "yangz-lb-test",
                                    "servicePort": 80
                                }
                            }
                        ]
                    }
                }
            ]
        },
        "status": {
            "loadBalancer": {}
        }
    }
}

也就是说，watch接口根据请求的版本号返回当前服务器的状态与给定版本之间的差异。例如在版本2264497和2273843之间，有两个ingress被删除，而2273842和2273843这两个版本之间只有一个ingress被删除。

小结：listwatch在初始化的时候先通过list接口获取当前资源的列表以及resourceVersion，接着再通过watch接口监听资源的变化。

事件的传递

了解了资源的监听机制，那么程序是在什么时候开始监听的，并且发生变化后事件是如何传递的呢？
在上文件的NewInformer函数返回了两个值:cache.Store和cache.Controller，其中Controller在GenericController的Start方法中被用到

func (ic GenericController) Start() {
	glog.Infof("starting Ingress controller")

	go ic.ingController.Run(ic.stopCh)
	go ic.endpController.Run(ic.stopCh)
	go ic.svcController.Run(ic.stopCh)
	go ic.nodeController.Run(ic.stopCh)
	go ic.secrController.Run(ic.stopCh)
	go ic.mapController.Run(ic.stopCh)

	go ic.secretQueue.Run(5*time.Second, ic.stopCh)
	go ic.syncQueue.Run(5*time.Second, ic.stopCh)

	if ic.syncStatus != nil {
		go ic.syncStatus.Run(ic.stopCh)
	}

	<-ic.stopCh
}

这个方法就是在文章开头的main函数中被调用到的ic.Start方法,这里可以看到有6个controller，分别对应了6种资源:ingresses,endpoints,services,nodes,secrets,configmaps。在调用cache.Controller的Run方法时，每个Controller都会开始ListWatch流程，对相应的资源进行监听。

看一下Run方法：

func (c *Controller) Run(stopCh <-chan struct{}) {
	defer utilruntime.HandleCrash()
	r := NewReflector(
		c.config.ListerWatcher,
		c.config.ObjectType,
		c.config.Queue,
		c.config.FullResyncPeriod,
	)

	c.reflectorMutex.Lock()
	c.reflector = r
	c.reflectorMutex.Unlock()

	r.RunUntil(stopCh)

	wait.Until(c.processLoop, time.Second, stopCh)
}

实际运行是通过Reflector的RunUntil

func (r *Reflector) RunUntil(stopCh <-chan struct{}) {
	glog.V(3).Infof("Starting reflector %v (%s) from %s", r.expectedType, r.resyncPeriod, r.name)
	go wait.Until(func() {
		if err := r.ListAndWatch(stopCh); err != nil {
			utilruntime.HandleError(err)
		}
	}, r.period, stopCh)
}

// Until loops until stop channel is closed, running f every period.
//
// Until is syntactic sugar on top of JitterUntil with zero jitter factor and
// with sliding = true (which means the timer for period starts after the f
// completes).
func Until(f func(), period time.Duration, stopCh <-chan struct{}) {
	JitterUntil(f, period, 0.0, true, stopCh)
}

注释里面说到，Until循环调用f函数，每隔period时长调用一次，直到stop channel被关闭。可以看到这个period参数是在应用程序启动的时候通过命令行参数指定的，如果不指定，则默认值为60s

1 2	resyncPeriod = flags.Duration("sync-period", 60*time.Second, `Relist and confirm cloud resources this often.`)

笔者猜测，这么做的目的应该是防止watch的时候http连接异常断开之后导致后续的监听失效，毕竟http无法保证连接的稳定性。

那么真正干活的地方应该就是Reflactor的ListAndWatch方法了

// ListAndWatch first lists all items and get the resource version at the moment of call,
// and then use the resource version to watch.
// It returns error if ListAndWatch didn't even try to initialize watch.
func (r *Reflector) ListAndWatch(stopCh <-chan struct{}) error {
	glog.V(3).Infof("Listing and watching %v from %s", r.expectedType, r.name)
	var resourceVersion string
	resyncCh, cleanup := r.resyncChan()
	defer cleanup()

	// Explicitly set "0" as resource version - it's fine for the List()
	// to be served from cache and potentially be delayed relative to
	// etcd contents. Reflector framework will catch up via Watch() eventually.
	options := api.ListOptions{ResourceVersion: "0"}
	list, err := r.listerWatcher.List(options)
	if err != nil {
		return fmt.Errorf("%s: Failed to list %v: %v", r.name, r.expectedType, err)
	}
	listMetaInterface, err := meta.ListAccessor(list)
	if err != nil {
		return fmt.Errorf("%s: Unable to understand list result %#v: %v", r.name, list, err)
	}
	resourceVersion = listMetaInterface.GetResourceVersion()
	items, err := meta.ExtractList(list)
	if err != nil {
		return fmt.Errorf("%s: Unable to understand list result %#v (%v)", r.name, list, err)
	}
	if err := r.syncWith(items, resourceVersion); err != nil {
		return fmt.Errorf("%s: Unable to sync list result: %v", r.name, err)
	}
	r.setLastSyncResourceVersion(resourceVersion)

	resyncerrc := make(chan error, 1)
	cancelCh := make(chan struct{})
	defer close(cancelCh)
	go func() {
		for {
			select {
			case <-resyncCh:
			case <-stopCh:
				return
			case <-cancelCh:
				return
			}
			glog.V(4).Infof("%s: forcing resync", r.name)
			if err := r.store.Resync(); err != nil {
				resyncerrc <- err
				return
			}
			cleanup()
			resyncCh, cleanup = r.resyncChan()
		}
	}()

	for {
		timemoutseconds := int64(minWatchTimeout.Seconds() * (rand.Float64() + 1.0))
		options = api.ListOptions{
			ResourceVersion: resourceVersion,
			// We want to avoid situations of hanging watchers. Stop any wachers that do not
			// receive any events within the timeout window.
			TimeoutSeconds: &timemoutseconds,
		}

		w, err := r.listerWatcher.Watch(options)
		if err != nil {
			switch err {
			case io.EOF:
				// watch closed normally
			case io.ErrUnexpectedEOF:
				glog.V(1).Infof("%s: Watch for %v closed with unexpected EOF: %v", r.name, r.expectedType, err)
			default:
				utilruntime.HandleError(fmt.Errorf("%s: Failed to watch %v: %v", r.name, r.expectedType, err))
			}
			// If this is "connection refused" error, it means that most likely apiserver is not responsive.
			// It doesn't make sense to re-list all objects because most likely we will be able to restart
			// watch where we ended.
			// If that's the case wait and resend watch request.
			if urlError, ok := err.(*url.Error); ok {
				if opError, ok := urlError.Err.(*net.OpError); ok {
					if errno, ok := opError.Err.(syscall.Errno); ok && errno == syscall.ECONNREFUSED {
						time.Sleep(time.Second)
						continue
					}
				}
			}
			return nil
		}

		if err := r.watchHandler(w, &resourceVersion, resyncerrc, stopCh); err != nil {
			if err != errorStopRequested {
				glog.Warningf("%s: watch of %v ended with: %v", r.name, r.expectedType, err)
			}
			return nil
		}
	}
}

对于watch资源的处理方法：

// watchHandler watches w and keeps *resourceVersion up to date.
func (r *Reflector) watchHandler(w watch.Interface, resourceVersion *string, errc chan error, stopCh <-chan struct{}) error {
	start := time.Now()
	eventCount := 0

	// Stopping the watcher should be idempotent and if we return from this function there's no way
	// we're coming back in with the same watch interface.
	defer w.Stop()

loop:
	for {
		select {
		case <-stopCh:
			return errorStopRequested
		case err := <-errc:
			return err
		case event, ok := <-w.ResultChan():
			if !ok {
				break loop
			}
			if event.Type == watch.Error {
				return apierrs.FromObject(event.Object)
			}
			if e, a := r.expectedType, reflect.TypeOf(event.Object); e != nil && e != a {
				utilruntime.HandleError(fmt.Errorf("%s: expected type %v, but watch event object had type %v", r.name, e, a))
				continue
			}
			meta, err := meta.Accessor(event.Object)
			if err != nil {
				utilruntime.HandleError(fmt.Errorf("%s: unable to understand watch event %#v", r.name, event))
				continue
			}
			newResourceVersion := meta.GetResourceVersion()
			switch event.Type {
			case watch.Added:
				r.store.Add(event.Object)
			case watch.Modified:
				r.store.Update(event.Object)
			case watch.Deleted:
				// TODO: Will any consumers need access to the "last known
				// state", which is passed in event.Object? If so, may need
				// to change this.
				r.store.Delete(event.Object)
			default:
				utilruntime.HandleError(fmt.Errorf("%s: unable to understand watch event %#v", r.name, event))
			}
			*resourceVersion = newResourceVersion
			r.setLastSyncResourceVersion(newResourceVersion)
			eventCount++
		}
	}

	watchDuration := time.Now().Sub(start)
	if watchDuration < 1*time.Second && eventCount == 0 {
		glog.V(4).Infof("%s: Unexpected watch close - watch lasted less than a second and no items received", r.name)
		return errors.New("very short watch")
	}
	glog.V(4).Infof("%s: Watch close - %v total %v items received", r.name, r.expectedType, eventCount)
	return nil
}

这里发现资源变化的时候，是通过cache.Store这样一个接口来存储变化的

type Store interface {
	Add(obj interface{}) error
	Update(obj interface{}) error
	Delete(obj interface{}) error
	List() []interface{}
	ListKeys() []string
	Get(obj interface{}) (item interface{}, exists bool, err error)
	GetByKey(key string) (item interface{}, exists bool, err error)

	// Replace will delete the contents of the store, using instead the
	// given list. Store takes ownership of the list, you should not reference
	// it after calling this function.
	Replace([]interface{}, string) error
	Resync() error
}

这个Store是在NewInformer的时候初始化的

1	fifo := NewDeltaFIFO(MetaNamespaceKeyFunc, nil, clientState)

并且在cache.Controller调用Run的时候，开始对该队列进行监听

1	wait.Until(c.processLoop, time.Second, stopCh)

func (c *Controller) processLoop() {
	for {
		obj, err := c.config.Queue.Pop(PopProcessFunc(c.config.Process))
		if err != nil {
			if c.config.RetryOnError {
				// This is the safe way to re-enqueue.
				c.config.Queue.AddIfNotPresent(obj)
			}
		}
	}
}

同样c.config.Process也是在NewInformer的时候定义的：

Process: func(obj interface{}) error {
			// from oldest to newest
			for _, d := range obj.(Deltas) {
				switch d.Type {
				case Sync, Added, Updated:
					if old, exists, err := clientState.Get(d.Object); err == nil && exists {
						if err := clientState.Update(d.Object); err != nil {
							return err
						}
						h.OnUpdate(old, d.Object)
					} else {
						if err := clientState.Add(d.Object); err != nil {
							return err
						}
						h.OnAdd(d.Object)
					}
				case Deleted:
					if err := clientState.Delete(d.Object); err != nil {
						return err
					}
					h.OnDelete(d.Object)
				}
			}
			return nil
		}

这里的h就是上文提到的ResourceEventHandler接口。当资源发化变化时，会先将资源保存到本地缓存中，再触发对应的事件，这里将资源缓存起来，以便后续的程序可以直接取，不用再次请求服务端。

这里简单看一下对于ingress资源发生变动时相应的处理逻辑:

ingEventHandler := cache.ResourceEventHandlerFuncs{
		AddFunc: func(obj interface{}) {
			addIng := obj.(*extensions.Ingress)
			if !class.IsValid(addIng, ic.cfg.IngressClass, ic.cfg.DefaultIngressClass) {
				glog.Infof("ignoring add for ingress %v based on annotation %v", addIng.Name, class.IngressKey)
				return
			}
			ic.recorder.Eventf(addIng, api.EventTypeNormal, "CREATE", fmt.Sprintf("Ingress %s/%s", addIng.Namespace, addIng.Name))
			ic.syncQueue.Enqueue(obj)
			if ic.annotations.ContainsCertificateAuth(addIng) {
				s, err := ic.annotations.CertificateAuthSecret(addIng)
				if err == nil {
					ic.secretQueue.Enqueue(s)
				}
			}
		},
		DeleteFunc: func(obj interface{}) {
			delIng := obj.(*extensions.Ingress)
			if !class.IsValid(delIng, ic.cfg.IngressClass, ic.cfg.DefaultIngressClass) {
				glog.Infof("ignoring delete for ingress %v based on annotation %v", delIng.Name, class.IngressKey)
				return
			}
			ic.recorder.Eventf(delIng, api.EventTypeNormal, "DELETE", fmt.Sprintf("Ingress %s/%s", delIng.Namespace, delIng.Name))
			ic.syncQueue.Enqueue(obj)
		},
		UpdateFunc: func(old, cur interface{}) {
			oldIng := old.(*extensions.Ingress)
			curIng := cur.(*extensions.Ingress)
			if !class.IsValid(curIng, ic.cfg.IngressClass, ic.cfg.DefaultIngressClass) &&
				!class.IsValid(oldIng, ic.cfg.IngressClass, ic.cfg.DefaultIngressClass) {
				return
			}

			if !reflect.DeepEqual(old, cur) {
				upIng := cur.(*extensions.Ingress)
				ic.recorder.Eventf(upIng, api.EventTypeNormal, "UPDATE", fmt.Sprintf("Ingress %s/%s", upIng.Namespace, upIng.Name))
				// the referenced secret is different?
				if diff := pretty.Compare(curIng.Spec.TLS, oldIng.Spec.TLS); diff != "" {
					for _, secretName := range curIng.Spec.TLS {
						secKey := ""
						if secretName.SecretName != "" {
							secKey = fmt.Sprintf("%v/%v", curIng.Namespace, secretName.SecretName)
						}
						glog.Infof("TLS section in ingress %v/%v changed (secret is now \"%v\")", upIng.Namespace, upIng.Name, secKey)
						// default cert is already queued
						if secKey != "" {
							go func() {
								// we need to wait until the ingress store is updated
								time.Sleep(10 * time.Second)
								key, err := ic.GetSecret(secKey)
								if err != nil {
									glog.Errorf("unexpected error: %v", err)
								}
								if key != nil {
									ic.secretQueue.Enqueue(key)
								}
							}()
						}
					}
				}
				if ic.annotations.ContainsCertificateAuth(upIng) {
					s, err := ic.annotations.CertificateAuthSecret(upIng)
					if err == nil {
						ic.secretQueue.Enqueue(s)
					}
				}

				ic.syncQueue.Enqueue(cur)
			}
		},
	}

这里主要处理的就是对ingress资源的tsl节点，如果发现了对应的tsl资源，则会对secretQueue进行Enqueue操作。

到这里，整个框架的来龙去脉就基本上理清楚了，现在回到这两个队列上面:

1 2	ic.syncQueue = task.NewTaskQueue(ic.sync) ic.secretQueue = task.NewTaskQueue(ic.syncSecret)

func (ic *GenericController) sync(e interface{}) error {
	ic.syncRateLimiter.Accept()

	if ic.syncQueue.IsShuttingDown() {
		return nil
	}

	if !ic.controllersInSync() {
		time.Sleep(podStoreSyncedPollPeriod)
		return fmt.Errorf("deferring sync till endpoints controller has synced")
	}

	upstreams, servers := ic.getBackendServers()
	var passUpstreams []*ingress.SSLPassthroughBackend
	for _, server := range servers {
		if !server.SSLPassthrough {
			continue
		}

		for _, loc := range server.Locations {
			if loc.Path != rootLocation {
				continue
			}
			passUpstreams = append(passUpstreams, &ingress.SSLPassthroughBackend{
				Backend:  loc.Backend,
				Hostname: server.Hostname,
			})
			break
		}
	}

	data, err := ic.cfg.Backend.OnUpdate(ingress.Configuration{
		Backends:            upstreams,
		Servers:             servers,
		TCPEndpoints:        ic.getStreamServices(ic.cfg.TCPConfigMapName, api.ProtocolTCP),
		UDPEndpoints:        ic.getStreamServices(ic.cfg.UDPConfigMapName, api.ProtocolUDP),
		PassthroughBackends: passUpstreams,
	})
	if err != nil {
		return err
	}

	out, reloaded, err := ic.cfg.Backend.Reload(data)
	if err != nil {
		incReloadErrorCount()
		glog.Errorf("unexpected failure restarting the backend: \n%v", string(out))
		return err
	}
	if reloaded {
		glog.Infof("ingress backend successfully reloaded...")
		incReloadCount()
	}
	return nil
}

这里将一切资源组织成ingress.Configuration结构传给OnUpdate方法，OnUpdate由各个Ingress Controller实现方实现，生成对应的配置数据（例如nginx的config）以byte切片返回，然后再将这些配置数据传给Reload方法，这个方法同样由第三方实现。

小结

本文通过分析源码的方式理清了整个Ingress Controller框架的来龙去脉，在下一篇文章中，通过对Nginx Ingress Controller源码分析，来看一下如何实现一个Ingress Controller。

展开全文 >>

centos7-kubernetes-deploy

2017-03-20

master

#!/bin/bash

set -e

kube_master="--master=http:\/\/127\.0\.0\.1:8080"

etcd_listen_client_urls="http:\/\/localhost:2379"

etcd_advertise_client_urls="http:\/\/localhost:2379"

kube_api_address="--insecure-bind-address=127\.0\.0\.1"

kube_api_port="--port=8080"

kubelet_port="--kubelet-port=10250"

kube_etcd_servers="--etcd-servers=http:\/\/127.0.0.1:2379"

kube_service_addresses="--service-cluster-ip-range=10\.254\.0\.0\/16"

kube_api_args=""

etcd_config="{ \"Network\": \"172.30.0.0/16\", \"SubnetLen\": 24, \"Backend\": { \"Type\": \"vxlan\" } }"

flannel_etcd_endpoints="http:\/\/127\.0\.0\.1:2379"

flannel_etcd_prefix="\/atomic\.io\/network"

TEMP=`getopt -o ab:c:: --long kube-master:,kube-master-port:,etcd-listen-client-urls:,etcd-advertise-client-urls:,kube-api-address:,kube-etcd-servers:,kube-service-addresses:,flannel-etcd-endpoints:,flannel-etcd-prefix: -- "$@"`

eval set -- "$TEMP"

while true ; do
        case "$1" in
                --kube-master ) kube_master=$2;shift 2;;
                --kube-master-port ) kube_master_port=$2;shift 2;;
                --etcd-listen-client-urls ) etcd_listen_client_urls=$2;shift 2;;
                --etcd-advertise-client-urls ) etcd_advertise_client_urls=$2;shift 2;;
                --kube-api-address ) kube_api_address=$2;shift 2;;
                --kube-etcd-servers ) kube_etcd_servers=$2;shift 2;;
                --kube-service-addresses ) kube_service_addresses=$2;shift 2;;
                --flannel-etcd-endpoints ) flannel_etcd_endpoints=$2;shift 2;;
                --flannel-etcd-prefix ) flannel_etcd_prefix=$2;shift 2;;
                --)shift;break;;
        esac
done


echo "[virt7-docker-common-release]
name=virt7-docker-common-release
baseurl=http://cbs.centos.org/repos/virt7-docker-common-release/x86_64/os/
gpgcheck=0" > /etc/yum.repos.d/virt7-docker-common-release.repo

yum -y install --enablerepo=virt7-docker-common-release kubernetes etcd flannel

sed -i "s/KUBE_MASTER=\".*\"/KUBE_MASTER=\"$kube_master\"/g" /etc/kubernetes/config

setenforce=0

systemctl disable iptables-services firewalld || true

systemctl stop iptables-services firewalld || true

sed -i "s/ETCD_LISTEN_CLIENT_URLS=\".*\"/ETCD_LISTEN_CLIENT_URLS=\"$etcd_listen_client_urls\"/g" /etc/etcd/etcd.conf

sed -i "s/ETCD_ADVERTISE_CLIENT_URLS=\".*\"/ETCD_ADVERTISE_CLIENT_URLS=\"$etcd_advertise_client_urls\"/g" /etc/etcd/etcd.conf

sed -i "s/KUBE_API_ADDRESS=\".*\"/KUBE_API_ADDRESS=\"$kube_api_address\"/g" /etc/kubernetes/apiserver

sed -i "s/KUBE_ETCD_SERVERS=\".*\"/KUBE_ETCD_SERVERS=\"$kube_etcd_servers\"/g" /etc/kubernetes/apiserver

sed -i "s/KUBE_SERVICE_ADDRESSES=\".*\"/KUBE_SERVICE_ADDRESSES=\"$kube_service_addresses\"/g" /etc/kubernetes/apiserver

sed -i "s/#\sKUBE_API_PORT=\".*\"/KUBE_API_PORT=\"$kube_api_port\"/g" /etc/kubernetes/apiserver

sed -i "s/#\sKUBELET_PORT=\".*\"/KUBELET_PORT=\"$kubelet_port\"/g" /etc/kubernetes/apiserver

sed -i "s/KUBE_API_ARGS=\".*\"/KUBE_API_ARGS=\"$kube_api_args\"/g" /etc/kubernetes/apiserver

sed -i "s/^KUBE_ADMISSION_CONTROL/# KUBE_ADMISSION_CONTROL/g" /etc/kubernetes/apiserver

sed -i "s/FLANNEL_ETCD_ENDPOINTS=\".*\"/FLANNEL_ETCD_ENDPOINTS=\"$flannel_etcd_endpoints\"/g" /etc/sysconfig/flanneld

sed -i "s/FLANNEL_ETCD_PREFIX=\".*\"/FLANNEL_ETCD_PREFIX=\"$flannel_etcd_prefix\"/g" /etc/sysconfig/flanneld

flannel_etcd_prefix_unescape=$(echo $flannel_etcd_prefix | sed 's/\\//g')

systemctl start etcd

etcdctl rm -r $flannel_etcd_prefix_unescape/config||true
etcdctl rm -r $flannel_etcd_prefix_unescape||true

etcdctl mkdir $flannel_etcd_prefix_unescape
etcdctl mk $flannel_etcd_prefix_unescape/config "$etcd_config"

for SERVICES in etcd kube-apiserver kube-controller-manager kube-scheduler flanneld; do
	systemctl restart $SERVICES
	systemctl enable $SERVICES
	systemctl status $SERVICES
done

部署命令

./kubernetes-deploy-master --etcd-listen-client-urls "http:\/\/0.0.0.0:2379" --etcd-advertise-client-urls "http:\/\/0.0.0.0:2379" --kube-api-address "--address=0.0.0.0" --flannel-etcd-prefix "\/kube-centos\/network" --kube-etcd-servers "--etcd-servers=http:\/\/<master-host>:2379" --flannel-etcd-endpoints "http:\/\/<master-host>:2379" --kube-master "--master=http:\/\/<master-host>:8080" --kube-etcd-servers "--etcd-servers=http:\/\/<master-host>:2379"

minion

#!/bin/bash

set -e

kube_master="--master=http:\/\/127\.0\.0\.1:8080"

flannel_etcd_endpoints="http:\/\/127\.0\.0\.1:2379"

flannel_etcd_prefix="\/atomic\.io\/network"

kubelet_address="--address=127.0.0.1"

kubelet_port="--port=10250"

kubelet_hostname="--hostname-override=127.0.0.1"

kubelet_api_server="--api-servers=http:\/\/127.0.0.1:8080"

kubelet_args=""

cluster_server="http:\/\/127.0.0.1:8080"

cluster="default-culster"

context="default-context"

context_user="default-admin"


TEMP=`getopt -o a: --long kube-master:,flannel-etcd-endpoints:,flannel-etcd-prefix:,kubelet-address:,kubelet-port:,kubelet-hostname:,kubelet-api-server:,kubelet-args:,cluster-server:,cluster:,context:,context-user: -- "$@"`

eval set -- "$TEMP"

while true ; do
        case "$1" in
                --kube-master ) kube_master=$2;shift 2;;
                --flannel-etcd-endpoints ) flannel_etcd_endpoints=$2;shift 2;;
                --flannel-etcd-prefix ) flannel_etcd_prefix=$2;shift 2;;
		--kubelet-address ) kubelet_address=$2;shift 2;;
		--kubelet-port ) kubelet_port=$2;shift 2;;
		--kubelet-hostname) kubelet_hostname=$2;shift 2;;
		--kubelet-api-server ) kubelet_api_server=$2;shift 2;;
		--kubelet-args ) kubelet_args=$2;shift 2;;
		--cluster ) cluster=$2;shift 2;;
		--cluster-server ) cluster_server=$2;shift 2;;
		--context ) context=$2;shift 2;;
		--context-user ) context_user=$2;shift 2;;

                --)shift;break;;
        esac
done


echo "[virt7-docker-common-release]
name=virt7-docker-common-release
baseurl=http://cbs.centos.org/repos/virt7-docker-common-release/x86_64/os/
gpgcheck=0" > /etc/yum.repos.d/virt7-docker-common-release.repo

yum -y install --enablerepo=virt7-docker-common-release kubernetes etcd flannel

sed -i "s/KUBE_MASTER=\".*\"/KUBE_MASTER=\"$kube_master\"/g" /etc/kubernetes/config

setenforce=0

systemctl disable iptables-services firewalld || true

systemctl stop iptables-services firewalld || true



sed -i "s/KUBELET_ADDRESS=\".*\"/KUBELET_ADDRESS=\"$kubelet_address\"/g" /etc/kubernetes/kubelet

sed -i "s/#\sKUBELET_PORT=\".*\"/KUBELET_PORT=\"$kubelet_port\"/g" /etc/kubernetes/kubelet

sed -i "s/KUBELET_HOSTNAME=\".*\"/KUBELET_HOSTNAME=\"$kubelet_hostname\"/g" /etc/kubernetes/kubelet

sed -i "s/KUBELET_API_SERVER=\".*\"/KUBELET_API_SERVER=\"$kubelet_api_server\"/g" /etc/kubernetes/kubelet

sed -i "s/#\sKUBE_API_PORT=\".*\"/KUBE_API_PORT=\"$kube_api_port\"/g" /etc/kubernetes/apiserver

sed -i "s/#\sKUBELET_PORT=\".*\"/KUBELET_PORT=\"$kubelet_port\"/g" /etc/kubernetes/apiserver

sed -i "s/KUBELET_ARGS=\".*\"/KUBELET_ARGS=\"$kubelet_args\"/g" /etc/kubernetes/kubelet

sed -i "s/^KUBELET_POD_INFRA_CONTAINER/# KUBELET_POD_INFRA_CONTAINER/g" /etc/kubernetes/kubelet

sed -i "s/FLANNEL_ETCD_ENDPOINTS=\".*\"/FLANNEL_ETCD_ENDPOINTS=\"$flannel_etcd_endpoints\"/g" /etc/sysconfig/flanneld

sed -i "s/FLANNEL_ETCD_PREFIX=\".*\"/FLANNEL_ETCD_PREFIX=\"$flannel_etcd_prefix\"/g" /etc/sysconfig/flanneld

for SERVICES in kube-proxy kubelet flanneld docker; do
    systemctl restart $SERVICES
    systemctl enable $SERVICES
    systemctl status $SERVICES
done

kubectl config set-cluster $cluster --server=$cluster_server
kubectl config set-context $context --cluster=$cluster --user=$context_user
kubectl config use-context $context

部署命令

./kubernetes-deploy-minion --kubelet-address "--address=0.0.0.0" --kubelet-hostname "--hostname-override=centos-minion-1" --kubelet-api-server "--api-servers=http:\/\/<master-host>:8080" --flannel-etcd-endpoints "http:\/\/<master-host>:2379" --flannel-etcd-prefix "\/kube-centos\/network" --cluster-server "http:\/\/<master-host>:8080" --kube-master "--master=http:\/\/<master-host>:8080"

展开全文 >>

java中的随机数

2017-02-20

引子

首先来看下面一段代码

public class Program {
    public static void main(String[] args) throws IOException {
        int count = 100000;
        int limit = 100;
        Map<Integer, Integer> ticks = new HashMap<Integer, Integer>();
        Random random = new Random();
        while (count-- > 0) {
            int result = random.nextInt(limit);
            if (!ticks.containsKey(result)) {
                ticks.put(result, 0);
            }
            ticks.put(result, ticks.get(result) + 1);
        }
        for (int i = 0; i < limit; i++) {
            System.out.println(i + ":" + ticks.get(i));
        }
    }
}

这段代码的运行结果如下

可以看到实际的结果在1000左右摆动。也就是说这样的代码产生的结果均匀分布。（笔者对上述代码进行了多次测试，结果都和这个是差不多的）均匀分布对于一个抽奖系统来说是非常重要的。例如，你花五块钱买一张彩票，我也花五块钱买一张彩票，大家抽中五万块钱的概率都是万分之一，
那么这个抽奖系统对于大家来说就是公平的。虽然这一段代码看起来是一段公平的代码，但事实上真的是这样子的吗？要理解其中的缘由，我们需要补充一些基础知识。

“真”随机数

要生成一个“真”随机数，电脑会检测电脑外部发生的某种物理现象。比如说，电脑可以测量某个原子的放射性衰变。根据量子理论，原子衰变是随机而不可测的，所以这就是宇宙中的“纯粹”随机性。攻击者永远无法预测原子衰变的发生时间，也就不可能猜出随机值。
举个更实际的例子，电脑会根据环境中的噪音或者采取你敲击键盘的精确时间作为随机数据或熵的生成依据。举个例子，你的电脑监测到你某天下午2点以后敲击键盘的精确时间是0.23423523秒，有足够的这些特定长数字你就能得到一个熵源，也就可以生成“真”随机数。由于人不是机器，所以攻击者无法掌握你的敲击时间。
Linux中的/dev/random随机设备生成随机数，“阻拦”访问直到熵积累量足够才返回一个真随机数。（熵，热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量。）（注：/dev/random产生随机数的效率十分低下，很难运用到生产环境中）

伪随机数

伪随机数这个概念是相对于“真”随机数而言。电脑通过发送种子数值，运用算法产生某个看起来像随机数的数字，但是实际上这个数字是可以预测的。因为电脑没有从环境中收集到任何随机信息。

如何判断一个随机数发生器的优劣

德国联邦信息安全办公室给出了随机数发生器质量评判的四个标准

K1——相同序列的概率非常低
K2——符合统计学的平均性，比如所有数字出现概率应该相同，卡方检验应该能通过，超长游程长度概略应该非常小，自相关应该只有一个尖峰，任何长度的同一数字之后别的数字出现概率应该仍然是相等的等等
K3——不应该能够从一段序列猜测出随机数发生器的工作状态或者下一个随机数
K4——不应该从随机数发生器的状态能猜测出随机数发生器以前的工作状态

文章开头那段代码，只满足了K2这个要求。其实K1，K3,和k4一个都不符合。

分析

笔者好奇的是，这段代码在C#中是不可能均匀分布的。因为在C#中new Random()是以1970年1月1日到当前时间的毫秒数作为线性同余算法的种子的。而在现代计算机中1毫秒内可以运行几十万次的while循环，因此你会发现获得的随机数大都相同。
来看下面的实验

Bitmap bmp = new Bitmap(300, 300);
Graphics g = Graphics.FromImage(bmp);
SolidBrush b = new SolidBrush(Color.Black);

Random random = new Random();
int count = 100000;
while (count-- > 0)
{
    int x = random.Next(300);
    int y = random.Next(300);
    g.FillRectangle(b, x, y, 1, 1);
}

这段程序生成的图片如下

将Random放入While循环中

Bitmap bmp = new Bitmap(300, 300);
Graphics g = Graphics.FromImage(bmp);
SolidBrush b = new SolidBrush(Color.Black);


int count = 100000;
while (count-- > 0)
{
    Random random = new Random();   
    int x = random.Next(300);
    int y = random.Next(300);
    g.FillRectangle(b, x, y, 1, 1);
}

这里只能看到零星的几个黑点，可以看到两者的差异非常大。但是在Java中这两种写法产生的结果是一致的。（实际上在早期的JDK版本也是和C#同样的结果）

那么这到底是怎么回事呢？

我们来看一下Java中Random类的构建函数

1
2
3

public Random() {
      this(seedUniquifier() ^ System.nanoTime());
  }

再来看一下seedUniquifier()这个函数

private static final AtomicLong seedUniquifier
        = new AtomicLong(8682522807148012L);

private static long seedUniquifier() {
        // L'Ecuyer, "Tables of Linear Congruential Generators of
        // Different Sizes and Good Lattice Structure", 1999
        for (;;) {
            long current = seedUniquifier.get();
            long next = current * 181783497276652981L;
            if (seedUniquifier.compareAndSet(current, next))
                return next;
        }
    }

可以看到这就是一个线性同余的算法，其中的种子是一个64位整型：8682522807148012L

我们截取这一段代码运行一下：

int i = 10;
while (i-- > 0) {
    System.out.println(seedUniquifier());
}

结果如下：

8006678197202707420
-3282039941672302964
3620162808252824828
199880078823418412
-358888042979226340
-3027244073376649012
2753936029964524604
-9114341766410567060
-4556895898465471908
7145509263664170764

也就是说无论你运行多少次都是这个结果。那么再来看一下System.nanoTime()这个函数

在代码的注释中可以找到

1
2
3

/**
     * Returns the current value of the running Java Virtual Machine's
     * high-resolution time source, in nanoseconds.

这句话的意思是返回当前java虚拟机的当前时间，是一个高精度的时间源，单位为纳秒。

抽奖程序

那么这时候我们来分析一下在java中每次都new一个 Random实例时，如何破解这样一个抽奖程序。

首先我们要知道我们抽奖的序号，也就是在那么多抽奖先后顺序，通过这个我们可以得出线性同余的随机数，因此，我们将抽奖序号设为N
抽奖的时间点，也就是System.nanoTime(),我们设为T
奖池

其中，如果作为一名抽奖程序的开发人员要知道第一个和第三个条件其实很简单。至于System.nanoTime()要获取可以说是难于登天。所以，这段程序从表面上看似乎并没有什么漏洞。

如果我们将时间放慢一亿倍（你能接近光速么？），我们就能精确的控制在哪一秒点下去就能中五万元了不是么？不过要接近光速似乎是不可能的事情。

不过，我们换一种方式来分析问题。虽然纳秒太细我们无法精确的控制，但是我们可以计算出在哪一秒内出现中五万元的纳秒数最多，于是我们可以选择在那一秒去点击抽奖按钮。这样我们中五万元的概率是不是就比别人高了许多？

（全文完）

展开全文 >>

maven和docker调试java应用程序

2016-12-31

问题

平常开发java应用程序，我们经常会遇到这样的一种场景：开发机使用的是Windows操作系统，但往往程序是跑在Linux操作系统上面的，甚至会调用一些Linux上的程序或者是系统api等，这种情况下我们的程序调试就会变得非常的麻烦。以往解决这种问题的方式一般是在Windows装一个Linux虚拟机，然后将程序部署到虚拟机上进行调试。这种方式虽然可以解决问题，但是总感觉效率太低：一来是虚拟机消耗太多的系统资源，二来编译和部署过程相当的繁琐（虽然你可以自己编写自动化脚本，但总归难以通用化）。

Docker的出现

Docker相比虚拟机来说，拥有更小的系统资源占用，更快的部署速度等优势，而且现在Windows上也能完美的运行Docker服务了。前提条件是要升级到Win10操作系统。至于Windows上Docker的安装非常的简单，Docker官方提供了傻瓜安装包，我们只要一键到底就行了。
安装点我

与maven配合使用

Docker自身提供了丰富RestApi供大家调用，其本身的DockerCli也是通过这些api与其Daemon进程进行交互的，因此我们可以通过编程的方式来使用Docker。我们可以利用maven的插件来完成我们程序的快速部署工作。现下farbric8就已提供了一款功能丰富的maven插件，接下来我们就来看一下如何使用它：

<plugin>
    <artifactId>maven-assembly-plugin</artifactId>
    <configuration>
        <finalName>ROOT</finalName>
        <appendAssemblyId>false</appendAssemblyId>
        <descriptorRefs>
            <descriptorRef>jar-with-dependencies</descriptorRef>
        </descriptorRefs>
        <archive>
            <manifest>
                <mainClass>${mainclass}</mainClass>
            </manifest>
        </archive>
    </configuration>
    <executions>
        <execution>
            <id>make-assembly</id>
            <phase>package</phase>
            <goals>
                <goal>single</goal>
            </goals>
        </execution>
    </executions>
</plugin>
<plugin>
    <groupId>io.fabric8</groupId>
    <artifactId>docker-maven-plugin</artifactId>
    <version>0.18.1</version>
    <configuration>
        <dockerHost>${dockerHost}</dockerHost>
        <useColor>true</useColor>
        <verbose>true</verbose>
        <images>
            <image>
                <name>${image.name}</name>
                <build>
                    <from>${image.from}</from>
                    <ports>
                        <port>5005</port>
                    </ports>
                    <assembly>
                        <mode>dir</mode>
                        <targetDir>${container.targetDir}</targetDir>
                        <inline>
                            <fileSets>
                                <fileSet>
                                    <includes>
                                        <include>*.jar</include>
                                    </includes>
                                    <directory>${project.build.directory}</directory>
                                    <outputDirectory>/</outputDirectory>
                                </fileSet>
                            </fileSets>
                        </inline>
                    </assembly>
                </build>
                <run>
                    <ports>
                        <port>${container.port}:5005</port>
                    </ports>
                    <cmd>${container.cmd}</cmd>
                </run>
            </image>
        </images>
    </configuration>
</plugin>

我们使用了两个插件，第一个插件将程序和其所有的依赖打进jar包，并指定mainclass,第二个插件就是docker插件了。我们将一些配置提取到property当中，使得这些配置具体一定的通用性

<properties>
    <dockerHost>http://localhost:2375</dockerHost>
    <mainclass>nd.com.sdp.Program</mainclass>
    <image.from>openjdk:7-jre</image.from>
    <image.name>${project.name}</image.name>
    <container.targetDir>/maven</container.targetDir>
    <container.port>5005</container.port>
    <container.cmd>java -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005 -jar /maven/ROOT.jar</container.cmd>
</properties>

dockerHost代表DockerDaemon进程所在的主机和其所监听的端口，你如果拥有一台装有Docker的远端机器，这里只要修改主机名和端口号就可以了。
mainClass指定程序main函数所在的类
image.from指定要使用的原始镜像，我们使用官方openjdk:7-jre(这里可以修改成任何你喜欢的镜像，Docker灵活性的体现)
image.name指定我们构建出来的镜像名称，我们简单的使用项目名称代替
container.targetDir指定了我们编译后的jar包要放到镜像中的什么位置
container.port指定了容器运行之后要暴露的调试端口，我们的ide就是通过此端口与其进行通信的
container.cmd容器启动时所运行的命令，这里指定程序以调试的方式启动

我们甚至可以将这些配置作为pom项目install到机器上让其它项目继承，如果你有一台nexus服务器，还可以将其deploy到上面去让团队其它成员使用^_^。
附上fabric-maven-docker-plugin操作手册

调试

配置好pom文件，下面编写一段代码来试一下Linux调试：

public class Program {
    public static void main(String[] args) throws IOException, InterruptedException {
        Runtime runtime = Runtime.getRuntime();
        Process process = runtime.exec(new String[]{"/bin/bash", "-c", "ls -l /"});
        process.waitFor();
        BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()));
        String line = null;
        StringBuilder sb = new StringBuilder();
        while ((line = reader.readLine()) != null) {
            sb.append(line + "\n");
        }
        System.out.println(sb.toString());
    }
}

笔者使用的是Intellij Idea，Eclipse的使用大同小异。首先要点击右上角的Edit Configurations：

在弹出界面的左上角点击+号，选择Remote：
Remote

在配置界面中确保Host和Port和我们刚才在Docker插件中配置的值一致：
configuration

最关键的一步是添加maven goal,点击+号，在弹出框中输入clean package docker:build docker:start

这一步的意思是编译打包，然后build Docker镜像，最后创建并运行容器，这么多步骤在一个maven命中完成，虽然java那么烂，但好歹有个maven看得过去^_^。
最后使用Shift+F9调试运行程序，可以看到断点命中，整个过程和本地调试体验一样:
break point

(全文完)

展开全文 >>

浅谈java中List接口

2016-12-15

List接口的定义

List接口在java中算是使用频率相当高的一个接口，我们先来看一下它的定义：

public interface List<E> extends Collection<E>{
    ...
    boolean add(E e);
    int size();
    E get(int index);
    Iterator<E> iterator();
    ...
}

这里只列出一些比较重要的方法，相比其它语言里面的类似的接口，可以说是大同小异，它的设计并没有什么问题。

实现

在jdk中，关于这个接口有三个实现，分别是ArrayList,LinkedList和Vector,我们分别来看一下它们的定义：

1	public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable

1	public class LinkedList<E> extends AbstractSequentialList<E> implements List<E>, Deque<E>, Cloneable, java.io.Serializable

1	public class Vector<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable

既然实现了List接口，那我们便可以用List指针来接收这三个类的实例。例如：

1
2
3

List list = new ArrayList();
List list = new LinkedList();
List list = new Vector();

迭代

在平常使用List接口的过程中，我们经常需要遍历List里面的元素。
于是我们可以这样写代码：

1
2
3

for (Interator inter = list.Interator();iter.hasNext();){
     Object obj = inter.next();
}

我们甚至还可以这样：

1 2	for (Object obj : list) { }

为什么可以这样？这是因为AbstractList实现了Iterable接口，而这里仅仅只是一种语法糖而已，实际代码编译后还是会被转成第一种写法。
（大家可以想想这里为什么要有一个Iterable接口，而不直接实现Iterator接口）

文章写到这里似乎并没有什么价值，但是我们发现在List接口中存在：

1	E get(int index);

这样一个方法，我们似乎可以改改上面遍历的方式：

1
2
3

for (int i = 0; i < list.size(); i++) {
     Object obj = list.get(i);
}

我相信大家在日常编码中会经常使用到这种方式。

随机访问

这种通过下标访问的方式，我们把它称之为RandomAccess。我们知道数组这种数据结构对这种随机访问的天生支持（事实上ArrayList和Vector就是用数组实现的），也就是说它的访问效率是非常高的。
现在我们回过头来看JDK中对List的三种实现，我们会发现其中的ArrayList和Vector竟然实现了一个叫RandomAccess接口，查看它的定义：

1 2	public interface RandomAccess { }

竟然是一个空接口？好吧这种接口的作用实际上是一种标记接口，对于它的使用，往往需要配合instanceof这种RTTI的方式。可以说并不是一种很理想的方式。

性能

我们可以写一个小程序来测试一下使用迭代器和使用RandomAccess的性能差异

public static void travelwithoutIterator(List list, int count) {
    long startTime;
    long endTime;
    startTime = System.currentTimeMillis();
    for (int a = 1; a <= count; a++) {
        for (int i = 0; i < list.size(); i++) {
            list.get(i);
        }
    }
    endTime = System.currentTimeMillis();
    long interval = endTime - startTime;
    System.out.println("不使用迭代器的间隔时间：" + interval);
}

public static void travelwithIterator(List list, int count) {
    long startTime;
    long endTime;
    startTime = System.currentTimeMillis();
    for (int a = 1; a <= count; a++) {
        for (Iterator iter = list.iterator(); iter.hasNext(); ) {
            iter.next();
        }
    }
    endTime = System.currentTimeMillis();
    long interval = endTime - startTime;
    System.out.println("使用迭代器的间隔时间：" + interval);
}
public static void addObject(List list, int n) {
    for (int m = 1; m <= n; m++) {
        list.add("" + m);
    }
}

在main中：

int number = 100000;
int count = 100;
List list = new ArrayList();
System.out.println("遍历ArrayList：");
addObject(list, number);
travelwithoutIterator(list, count);
travelwithIterator(list, count);

结果是:

1
2
3

遍历ArrayList：
不使用迭代器的间隔时间：5
使用迭代器的间隔时间：12

我们对于ArrayList，使用RandomAccess的效率要比使用迭代器高不少，这对于一些对于性能要求比较苛刻的程序来说，可能会是一个优化的点。

但是我们现在换成LinkedList来试一试：

int number = 100000;
int count = 100;
List list = new LinkedList();
System.out.println("遍历LinkedList：");
addObject(list, number);
travelwithoutIterator(list, count);
travelwithIterator(list, count);

结果是：

1
2
3

遍历LinkedList：
不使用迭代器的间隔时间：1043247
使用迭代器的间隔时间：139

对于List的使用者来说，或者说正在编写一个框架的人，我们经常不知道List指针会接到什么样的一个具体实例，于是乎，我们只能以这种贴膏药的方式来修补我们的程序：

if (list instanceof RandomAccess) {
    for (int i = list.size(); i < list.size(); i++) {
        Object obj = list.get(i);
    }
} else {
    for (Object obj : list) {
    }
}

设计的问题

到这里，我们可以看出LinkedList明显是不应该实现List这么大的一个接口了，或者说早期的jdk设计人员并没有考虑到这样的性能问题。我们再回过头来看RandomAccess接口，jdk设计人员似乎也是意识到了这一点，才搞出了这么一个东西。
那会为什么不让LinkedList直接去掉List接口呢？（在C#中LinkedList并没有实现IList接口）我想这应该是Java设计人员始终坚持的兼容性原则，这跟Jvm始终不愿意引入泛型是一个道理。

展开全文 >>

协同进程的死锁问题

2016-12-14

管道

要理解协同进程的话，首先要知道什么是管道。管道是UNIX系统当中IPC的最古老形式，所有的UNIX系统都提供这种通信机制。
管道是通过调用pipe函数创建的:

1 2	#include <unistd.h> int pipe(int fd[2]);

经由参数返回两个文件描述符：fd[0]为读而打开，fd[1]为写而打开。fd[1]的输出是fd[0]的输入。下图是管道的结构：

单个进程中的管道几乎没有任何用处。通常，进程会先调用pipe，接着调用fork，从而创建从父进程到子进程的IPC通道，反之亦然。下图显示了这种情况

父子进程的管道

fork之后做什么取决于我们想要的数据流的方向。对于从父进程到子进程的管道，父进程关闭管道的读端(fd[0]),子进程关闭写端(fd[1])。下图显示了在此之后描述符的状态结果：

父子进程的管道

协同进程

当A进程既产生B进程的输入，又读取B进程的输出时，B进程就变成了A进程的协同进程（coprocess）。下图显示了这种安排：

示例

让我们通过一个示例来观察协同进程。我们先创建一个简单的协同进程，它从其标准输入读取两个数，计算它们的和，然后将和写至其标准输出。

#include "apue.h"

int main(void)
{
  int n, int1,int2;
  char line[MAXLINE];

  while((n = read(STDIN_FILENO, line, MAXLINE)) > 0)
  {
    line[n] = 0;
    if(sscanf(line, "%d%d",&int1,&int2) == 2)
    {
      sprintf(line, "%d\n",int1 + int2);
      n = strlen(line);
      if(write(STDOUT_FILENO,line,n) != n)
      {
        err_sys("write error");
      }

    }
    else
    {
      if(write(STDOUT_FILENO,"invalid args\n",13) != 13)
      {
        err_sys("write error");
      }
    }
  }
  exit(0);
}

对此程序进行编译，并保存为可执行文件add

下面的程序创建两个管道：一个是协同进程的标准输入，另一个是协同进程的标准输出。它先从其标准输入读取两个数之后调用add协同进程，并将协同进程送来的值写到其标准输出。

#include "apue.h"
static void sig_pipe(int);

int main(void)
{
  int n,fd1[2],fd2[2];
  pid_t pid;
  char line[MAXLINE];

  if(signal(SIGPIPE,sig_pipe) == SIG_ERR)
  {
    err_sys("signal error");
  }
  if(pipe(fd1) < 0 || pipe(fd2) < 0)
  {
    err_sys("pipe error");
  }
  if((pid = fork()) <0)
  {
    err_sys("fork error");
  }
  else if(pid > 0)
  {
    close(fd1[0]);
    close(fd2[1]);
    while(fgets(line,MAXLINE,stdin) != NULL)
    {
      n = strlen(line);
      if(write(fd1[1],line,n) != n)
      {
        err_sys("write error to pipe");
      }
      if((n = read(fd2[0],line,MAXLINE)) < 0)
      {
        err_sys("read error from pipe");
      }
      if(n == 0)
      {
        err_msg("child closed pipe");
        break;
      }
      line[n] = 0;
      if(fputs(line,stdout) == EOF)
      {
        err_sys("fputs error");
      }
      break;
    }
    if(ferror(stdin))
    {
      err_sys("fgets error on stdin");
    }
    exit(0);
  }
  else
  {
    close(fd1[1]);
    close(fd2[0]);
    if(fd1[0] != STDIN_FILENO)
    {
      if(dup2(fd1[0],STDIN_FILENO) != STDIN_FILENO)
      {
        err_sys("dup2 error to stdin");
      }
      close(fd1[0]);
    }
    if(fd2[1] != STDOUT_FILENO)
    {
      if(dup2(fd2[1],STDOUT_FILENO) != STDOUT_FILENO)
      {
        err_sys("dup2 error to stdout");
      }
      close(fd2[1]);
    }
    if(execl("./add","add",(char *)0) < 0)
    {
      err_sys("execl error");
    }
  }
  exit(0);
}
static void sig_pipe(int signo)
{
  printf("SIGPIPE caught\n");
  exit(1);
}

编译运行此程序，它会按预期工作。但是如果在它等待输入的时候杀死add协同进程，然后又输入两个数，那么程序对没有读进程的管道进行写操作时，会产生SIGPIPE信号。

1 2	1 2 SIGPIPE caught

死锁

我们用这个程序替换原来的add协同程序，则会发生死锁的问题：

#include "apue.h"

int main(void)
{
  int int1,int2;
  char line[MAXLINE];
  while(fgets(line,MAXLINE,stdin) != NULL)
  {
    if(sscanf(line,"%d%d",&int1,&int2) == 2)
    {
      if(printf("%d\n",int1 + int2) == EOF)
      {
        err_sys("printf error");
      }
    }
    else
    {
      if(printf("invalid args\n") == EOF)
      {
        err_sys("printf error");
      }
    }
  }
  exit(0);
}

分析

我们第一个add程序是直接使用write和read的系统调用，后一个add程序则使用了标准I/O。因为标准输入现在变换成了管道，所以标准I/O的缓冲方式从行缓冲变成了全缓冲，标准输出也是如此，当子进程从其标准输入读取而发生阻塞时，父进程从管道读时也发生阻塞，于是产生了死锁。

解决

知道了原因，我们就可以通过设置标准I/O缓冲方式为行缓冲来解决问题

if(setvbuf(stdin,NULL,_IOLBF,0) != 0)
{
    err_sys("setvbuf error");
}
if(setvbuf(stdout,NULL,_IOLBF,0) != 0)
{
    err_sys("setvbuf error");
}

其中：

_IOFBF: 全缓冲
_IOLBF: 行缓冲
_IONBF: 无缓冲

重新编译并运行程序，发现死锁问题被解决了。
（全文完）

展开全文 >>

linux中的文件强制锁

2016-12-07

什么是建议性锁和强制性锁

建议性锁：建议性锁并不从内核限制程序访问文件，而是依赖各个合作进程(cooperating process)之间遵循相应的规则。
强制性锁：强制性锁会让内核检查每一个open、read、和write,验证调用进程是否违背了正访问的文件上的某一把锁。

就好比红灯亮了，人们遵守规则不闯红灯，但是如果有人要强行闯红灯的话，并没有好的方法去阻止，这就是建议性锁。
但是如果我们在红灯亮的同时，把道路也封起来，这时候你想闯也闯不了，这就是强制性锁。

Linux上的强制性锁

Linux系统上的强制性锁默认情况下是不开启的。如果要开启强制性锁，要由以下两个步骤完成：

在文件系统mount的时候加上-o mand参数
打开文件的设置组ID位并且关闭其组执行位

在shell下可以这样打开

1 2	$ chmod g+s <filename> $ chmod g-x <filename>

或者通过fchmod函数设置

1	fchmod(fd,(statbuf.st_mode & ~S_IXGRP) \| S_ISGID)

验证强制性锁

我们可以编写一段测试程序，它打开一个文件（系统已打开强制性锁模式），对该文件整体设置一把读锁，然后休眠一段时间。
该程序如下：

 #include "apue.h"
 #include <fcntl.h>
 #include <stdio.h>
    
int main(int argc,char *argv[])
{
   int fd;
   pid_t pid;
   struct stat statbuf;
   if(argc != 2)
   {
     fprintf(stderr,"usage: %s filename\n",argv[0]);
     exit(1);
   }
   if((fd = open(argv[1],O_RDWR | O_CREAT | O_TRUNC,FILE_MODE)) < 0)
   {
     err_sys("open error");
   }
 
   if(write(fd,"abcef",6) != 6)
   {
     err_sys("write error");
   } 
   if(fstat(fd,&statbuf) < 0)
   {
     err_sys("fstat error");
   } 
   if(fchmod(fd,(statbuf.st_mode & ~S_IXGRP) | S_ISGID) < 0)
   {
     err_sys("fchmod error");
   }
   if((read_lock(fd, 0, SEEK_SET, 0)) < 0)
   {
     err_sys("read_lock error");
   }
   sleep(60);
   exit(0);
}

运行程序

1	$ ./lock temp.lock

在另一个终端验证

1	$ echo "hello" > temp.lock

可以看到出现了下面的错误

1	-bash: temp.lock: Resource temporarily unavailable

事实证明我们的读锁生效了。

绕过强制性锁

我们用vi程序对temp.lock进行洗编辑，其结果竟然可以写回磁盘！强制性锁不起作用了？
我们用strace -c vim 命令跟踪vim程序的系统调用

1	$ strace -c vim temp.lock

返回如下信息：

 % time     seconds  usecs/call     calls    errors syscall
------ ----------- ----------- --------- --------- ----------------
100.00    0.000015          15         1           setxattr
  0.00    0.000000           0        34           read
  0.00    0.000000           0        31           write
  0.00    0.000000           0        29         2 open
  0.00    0.000000           0        29           close
  0.00    0.000000           0        22         4 stat
  0.00    0.000000           0        20           fstat
  0.00    0.000000           0         4         3 lstat
  0.00    0.000000           0         2           poll
  0.00    0.000000           0         5           lseek
  0.00    0.000000           0        34           mmap
  0.00    0.000000           0        17           mprotect
  0.00    0.000000           0         8           munmap
  0.00    0.000000           0         6           brk
  0.00    0.000000           0        22           rt_sigaction
  0.00    0.000000           0         6           rt_sigprocmask
  0.00    0.000000           0        19           ioctl
  0.00    0.000000           0         6         2 access
  0.00    0.000000           0        46           select
  0.00    0.000000           0         1           getpid
  0.00    0.000000           0         2           socket
  0.00    0.000000           0         2           connect
  0.00    0.000000           0         2           sendto
  0.00    0.000000           0         1           recvmsg
  0.00    0.000000           0         1           execve
  0.00    0.000000           0         1           uname
  0.00    0.000000           0         9           fcntl
  0.00    0.000000           0         1           fsync
  0.00    0.000000           0         8           getcwd
  0.00    0.000000           0         5           chdir
  0.00    0.000000           0         4           fchdir
  0.00    0.000000           0         1           rename
  0.00    0.000000           0         6         1 unlink
  0.00    0.000000           0         1         1 readlink
  0.00    0.000000           0         2           chmod
  0.00    0.000000           0         1           fchown
  0.00    0.000000           0         1           getrlimit
  0.00    0.000000           0         1           sysinfo
  0.00    0.000000           0         3           getuid
  0.00    0.000000           0         1           sigaltstack
  0.00    0.000000           0         1           statfs
  0.00    0.000000           0         1           arch_prctl
  0.00    0.000000           0         1         1 getxattr
------ ----------- ----------- --------- --------- ----------------
100.00    0.000015                   398        14 total

我们可以发现其调用了rename函数，我们知道rename其实是通过unlink和link函数来实现对文件硬连接的改变。
分析其原理：

vim将新内容写到一个临时文件中，然后删除原文件，最后将临时文件名改为原文件名。而强制性锁对unlink函数没有影响^_^。

知道了原理那么我们可以自己编写一段代码来验证：

#include "apue.h"
#include <fcntl.h>

int main(int argc,char *argv[])
{
  int fd;
  if(argc != 2)
  {
    fprintf(stderr,"usage: %s filename\n", argv[0]);
  }

  if((fd = open(".temp",O_RDWR | O_CREAT | O_TRUNC,FILE_MODE)) < 0)
  {
    err_sys("open error");
  }
  if(write(fd,"ghijkl",6) != 6)
  {
    err_sys("write error");
  }
  if(unlink(argv[1]) < 0)
  {
    err_sys("unlink error");
  }
  if(link(".temp",argv[1]) < 0)
  {
    err_sys("link error");
  }
  if(unlink(".temp") < 0)
  {
    err_sys("unlink error");
  }
  exit(0);
}

该程序先创建一个.temp临时文件，然后写放一些数据，接着unlink原文件，再将.temp重命名成原文件，最后记得unlink临时文件。
记得该程序的工作目录必须和原文件处在同一个磁盘，因为跨磁盘的link是不允许的。最后看看效果：

1 2	$ cat temp.lock ghijkl

(全文完)

展开全文 >>