一文解读Dockerfile

前言

上一篇我们说到Docker镜像及镜像分层结构，今天这一篇也跟上一篇联系比较密切，接下来我们来说一下如何使用Dockerfile来构建一个镜像。

什么是Dockerfile

Dockerfile 是一个用来构建镜像的文本文件，文本内容包含了一条条构建镜像所需的指令和说明。客户可以基于dockerfile生成新的镜像，从而生成一个新的容器。

dockerfile仅仅是用来制作镜像的源码文件，是构建容器过程中的指令，docker能够读取dockerfile的指定进行自动构建容器，基于dockerfile制作镜像，每一个指令都会创建一个镜像层，即镜像都是多层叠加而成，因此，层越多，效率越低，创建镜像，层越少越好。因此能在一个指令完成的动作尽量通过一个指令定义。首先需要有一个制作镜像的目录，该目录下有个文件，名称必须为Dockerfile，Dockerfile有指定的格式，#号开头为注释，，指定默认用大写字母来表示，以区分指令和参数，docker build读取Dockerfile是按顺序依次Dockerfile里的配置，且第一条非注释指令必须是FROM 开头，表示基于哪个基础镜像来构建新镜像。可以根据已存在的任意镜像来制作新镜像。

「注意」：.dcokerignore：把文件路径写入到.dockerignore，对应的路径将不会被打包到新镜像

Dockerfile、镜像、仓库以及容器之间的关系

docker引擎解析Dockerfile生成镜像，构建过程中通过-t参数可以对镜像进行tag标记，生成的镜像通过docker run指令来生成我们使用的容器，容器运行运行过程中可以使用docker start、stop、restart来启动、停止、重启容器。本地构建的镜像还可以使用docker push来推向远程仓库供别人使用，反过来我们还可以通过docker pull 指令从镜像仓库拉取我们要使用的镜像，具体运行关系如图所示。

使用 Dockerfile 定制镜像

我们先用一个最简单的例子体验一下如何使用Dockerfile文件来定制一个镜像，具体 Dockerfile 文件内指令详解，我们等下再细说。

「1.下面以定制一个 nginx 镜像（构建好的镜像内会有一个 /usr/share/nginx/html/index.html 文件）」

在一个空目录下，新建一个名为 Dockerfile 文件，并在文件内添加以下内容：

FROM nginx
RUN echo '这是一个本地构建的nginx镜像' > /usr/share/nginx/html/index.html

这样我们就从一个nginx的基础镜像构建了一个新的镜像，Nginx 首页内容为这是一个本地构建的nginx镜像。

「2、FROM 和 RUN 指令的作用」

「FROM」：定制的镜像都是基于 FROM 的镜像，这里的 nginx 就是定制需要的基础镜像。后续的操作都是基于 nginx。

「RUN」：用于执行后面跟着的命令行命令。有以下俩种格式：

shell 格式：

RUN <命令行命令>
# <命令行命令> 等同于，在终端操作的 shell 命令。

exec 格式：

RUN ["可执行文件", "参数1", "参数2"]
# 例如：
# RUN ["./test.php", "dev", "offline"] 等价于 RUN ./test.php dev offline

「特别注意」：Dockerfile 的指令每执行一次都会在 docker 上新建一层。所以过多无意义的层，会造成镜像膨胀过大。例如：

FROM centos
RUN yum -y install wget
RUN wget -O redis.tar.gz "http://download.redis.io/releases/redis-5.0.3.tar.gz"
RUN tar -xvf redis.tar.gz

以上执行会创建 3 层镜像。可简化为以下格式：

FROM centos
RUN yum -y install wget \
    && wget -O redis.tar.gz "http://download.redis.io/releases/redis-5.0.3.tar.gz" \
    && tar -xvf redis.tar.gz

如上，以 「&&」 符号连接命令，这样执行后，只会创建 1 层镜像。

开始构建镜像

在 Dockerfile 文件的存放目录下，执行构建动作。

以下示例，通过目录下的 Dockerfile 构建一个 nginx:v3（镜像名称:镜像标签）。

「注」：最后的 「.」 代表本次执行的上下文路径，接下来会介绍

docker build -t nginx:v3 .

以上显示，说明已经构建成功。

上下文路径

上面有提到指令最后一个 「.」 是上下文路径，那么什么是上下文路径呢？

docker build -t nginx:v3 .

上下文路径，是指 docker 在构建镜像，有时候想要使用到本机的文件（比如复制），docker build 命令得知这个路径后，会将路径下的所有内容打包。

「解析」：由于 docker 的运行模式是 C/S。我们本机是 C，docker 引擎是 S。实际的构建过程是在 docker 引擎下完成的，所以这个时候无法用到我们本机的文件。这就需要把我们本机的指定目录下的文件一起打包提供给 docker 引擎使用。

如果未说明最后一个参数，那么默认上下文路径就是 Dockerfile 所在的位置。

「注意」：上下文路径下不要放无用的文件，因为会一起打包发送给 docker 引擎，如果文件过多会造成过程缓慢。

指令详解

「FROM」

FROM指令是最重要的一个且必须为 Dockerfile文件开篇的第一个非注释行，用于为映像文件构建过程指定基准镜像，后续的指令运行于此基准镜像所提供的运行环境。

实践中，基准镜像可以是任何可用镜像文件，默认情况下， docker build会在 docker主机上查找指定的镜像文件，在其不存在时，则会从 Docker Hub Registry上拉取所需的镜像文件。如果找不到指定的镜像文件， docker build会返回一个错误信息

FROM 语法

FROM <repository>[:<tag>] 或者

FROM <repository>@<digest>

<repository>:指定作为base image的名称

 <tag>：base image的标签，为可选项，省略时默认为 latest；

<digest>为校验码

「MAINTANIER（已经废弃） ---》LABEL」

用于让镜像制作者提供本人的详细信息。Dockerfile并不限制 MAINTAINER指令可在出现的位置，但推荐将其放置于 FROM指令之后。

语法：

MAINTAINER  <authtor's detail> l
# author's detail>可是任何文本信息，但约定俗成地使用作者名称及邮件地址，如

MAINTAINER "janker <janker@janker.top>"

# 一般把MAINTAINER放在FROM后面

「LABEL」

LABEL用于为镜像添加元数据，元数以键值对的形式指定：

LABEL <key>=<value> <key>=<value> <key>=<value> ...

使用LABEL指定元数据时，一条LABEL指定可以指定一或多条元数据，指定多条元数据时不同元数据之间通过空格分隔。推荐将所有的元数据通过一条LABEL指令指定，以免生成过多的中间镜像。如，通过LABEL指定一些元数据：

LABEL version="1.0" description="这是一个Web服务器" by="IT笔录"

指定后可以通过docker inspect查看：

docker inspect janker/test
"Labels": {
    "version": "1.0",
    "description": "这是一个Web服务器",
    "by": "IT笔录"
},

「COPY」

用于从 Docker主机复制文件至创建的新映像文件

格式

COPY [--chown=<user>:<group>] <src>...  <dest>
COPY [--chown=<user>:<group>] ["<src>",...  "<dest>"]

**[--chown=<user>:<group>]**：可选参数，用户改变复制到容器内文件的拥有者和属组。

<src>：要复制的源文件或目录，支持使用通配符，其通配符规则要满足 Go 的 filepath.Match 规则。例如：

COPY hom* /mydir/
COPY hom?.txt /mydir/

<dest>：目标路径，即正在创建的 image的文件系统路径；建议为 <dest>使用绝对路径，<dest>绝对路径为镜像中的路径，而不是宿主机的路径。否则， COPY指定则以 WORKDIR为其起始路径

「注意：在路径中有空白字符时，通常使用第二种格式 .」

文件复制准则

<src>必须是build上下文中的路径
如果<src>是目录，其内部文件或者子目录会被递归复制，但<src>目录自身不会被复制
如果指定了多个<src>，或在<src>中使用了通配符，则<dest>必须是一个目录，且dest目录必须以/结尾
如果<dest>事先不存在，它将会被自动创建，这包括其父目录路径

「ADD」

ADD指令类似于 COPY指令， ADD支持使用 TAR文件和 URL路径

ADD <src> ... <dest>
ADD ["<src>",... "<dest>"]

操作规则

同COPY指令的4点准则

ADD 指令和 COPY 的使用格类似（同样需求下，官方推荐使用 COPY）。功能也类似，不同之处如下：

ADD 的优点：在执行 <源文件> 为 tar 压缩文件的话，压缩格式为 gzip, bzip2 以及 xz 的情况下，会自动复制并解压到 <目标路径>。
ADD 的缺点：在不解压的前提下，无法复制 tar 压缩文件。会令镜像构建缓存失效，从而可能会令镜像构建变得比较缓慢。具体是否使用，可以根据是否需要自动解压来决定。

「WORKDIR」

指定工作目录。用 WORKDIR 指定的工作目录，会在构建镜像的每一层中都存在。（WORKDIR 指定的工作目录，必须是提前创建好的）。

docker build 构建镜像过程中的，每一个 RUN 命令都是新建的一层。只有通过 WORKDIR 创建的目录才会一直存在。

格式：

WORKDIR <工作目录路径>

「VOLUME」

定义匿名数据卷。在启动容器时忘记挂载数据卷，会自动挂载到匿名卷。

作用：

避免重要的数据，因容器重启而丢失，这是非常致命的。
避免容器不断变大。

格式：

VOLUME ["<路径1>", "<路径2>"...]
VOLUME <路径>

在启动容器 docker run 的时候，我们可以通过 -v 参数修改挂载点。

「EXPOSE」

仅仅只是声明端口。

作用：

帮助镜像使用者理解这个镜像服务的守护端口，以方便配置映射。
在运行时使用随机端口映射时，也就是 docker run -P 时，会自动随机映射 EXPOSE 的端口。

格式：

EXPOSE <端口1> [<端口2>...]

「ENV」

设置环境变量，定义了环境变量，那么在后续的指令中，就可以使用这个环境变量。

格式：

ENV <key> <value>
ENV <key1>=<value1> <key2>=<value2>...

以下示例设置 NODE_VERSION = 7.2.0 ，在后续的指令中可以通过 $NODE_VERSION 引用：

ENV NODE_VERSION 7.2.0

RUN curl -SLO "https://nodejs.org/dist/v$NODE_VERSION/node-v$NODE_VERSION-linux-x64.tar.xz" \
  && curl -SLO "https://nodejs.org/dist/v$NODE_VERSION/SHASUMS256.txt.asc"

「RUN」

RUN <command>  
RUN ["<executable>", "<param1>", "<param2>"]

第一种格式中，<command>通常是一个shell命令，且以“/bin/sh -c”作为父进程来运行它，这意味着此进程在容器中的PID不为1，不能接收Unix信号，因此，当使用 docker stop <container>命令停止容器时，此进程接收不到SIGTERM信号；

第二种语法格式中的参数是一个JSON格式的数组，其中<executable>为要运行的命令，后面的<paramN>为传递给命令的选项或参数；然而，此种格式指定的命令不会以“/bin/sh -c”来发起，表示这种命令在容器中直接运行，不会作为shell的子进程，因此常见的shell操作如变量替换以及通配符（？，*等）替换将不会进行，不过，如果要运行的没能力依赖此shell特性的话，可以将其替换为类似下面的格式

「注意:json数组中使用双引号」

RUN ["/bin/bash","-C","<executable>","<paraml>"]

「CMD」

类似于 RUN 指令，用于运行程序，但二者运行的时间点不同:

CMD 在docker run 时运行。
RUN 是在 docker build。

「作用」：为启动的容器指定默认要运行的程序，程序运行结束，容器也就结束。CMD 指令指定的程序可被 docker run 命令行参数中指定要运行的程序所覆盖。

「注意」：如果 Dockerfile 中如果存在多个 CMD 指令，仅最后一个生效。

格式：

CMD <shell 命令> 
CMD ["<可执行文件或命令>","<param1>","<param2>",...] 
CMD ["<param1>","<param2>",...]  # 该写法是为 ENTRYPOINT 指令指定的程序提供默认参数

推荐使用第二种格式，执行过程比较明确。第一种格式实际上在运行的过程中也会自动转换成第二种格式运行，并且默认可执行文件是 sh。

「ENTRYPOINT」

类似于 CMD 指令，但其不会被 docker run 的命令行参数指定的指令所覆盖，而且这些命令行参数会被当作参数送给 ENTRYPOINT 指令指定的程序。

但是, 如果运行 docker run 时使用了 --entrypoint 选项，将覆盖 ENTRYPOINT 指令指定的程序。

「优点」：在执行 docker run 的时候可以指定 ENTRYPOINT 运行所需的参数。

「注意」：如果 Dockerfile 中如果存在多个 ENTRYPOINT 指令，仅最后一个生效。

格式：

ENTRYPOINT ["<executeable>","<param1>","<param2>",...]

可以搭配 CMD 命令使用：一般是变参才会使用 CMD ，这里的 CMD 等于是在给 ENTRYPOINT 传参，以下示例会提到。

「示例：」

假设已通过 Dockerfile 构建了 nginx:test 镜像：

FROM nginx

ENTRYPOINT ["nginx", "-c"] # 定参
CMD ["/etc/nginx/nginx.conf"] # 变参

1、不传参运行

 docker run  nginx:test

容器内会默认运行以下命令，启动主进程。

nginx -c /etc/nginx/nginx.conf

2、传参运行

docker run  nginx:test -c /etc/nginx/new.conf

容器内会默认运行以下命令，启动主进程(/etc/nginx/new.conf:假设容器内已有此文件)

nginx -c /etc/nginx/new.conf

「HEALTHCHECK」

用于指定某个程序或者指令来监控 docker 容器服务的运行状态。

格式：

HEALTHCHECK [选项] CMD <命令>：设置检查容器健康状况的命令
HEALTHCHECK NONE：如果基础镜像有健康检查指令，使用这行可以屏蔽掉其健康检查指令

HEALTHCHECK [选项] CMD <命令> : 这边 CMD 后面跟随的命令使用，可以参考 CMD 的用法。

「ARG」

构建参数，与 ENV 作用一致。不过作用域不一样。ARG 设置的环境变量仅对 Dockerfile 内有效，也就是说只有 docker build 的过程中有效，构建好的镜像内不存在此环境变量。

构建命令 docker build 中可以用 --build-arg <参数名>=<值> 来覆盖。

格式：

ARG <参数名>[=<默认值>]

「STOPSIGNAL」

STOPSIGNAL用于设置停止容器所要发送的系统调用信号：

STOPSIGNAL signal

「SHELL」

SHELL用于设置执行命令（shell式）所使用的的默认 shell 类型：

SHELL ["executable", "parameters"]

SHELL在Windows环境下比较有用，Windows 下通常会有 cmd 和 powershell 两种 shell，可能还会有 sh。这时就可以通过 SHELL 来指定所使用的 shell 类型：

FROM microsoft/windowsservercore
 
# Executed as cmd /S /C echo default
RUN echo default
 
# Executed as cmd /S /C powershell -command Write-Host default
RUN powershell -command Write-Host default
 
# Executed as powershell -command Write-Host hello
SHELL ["powershell", "-command"]
RUN Write-Host hello
 
# Executed as cmd /S /C echo hello
SHELL ["cmd", "/S"", "/C"]
RUN echo hello

「USER」

用于指定执行后续命令的用户和用户组，这边只是切换后续命令执行的用户（用户和用户组必须提前已经存在）。

格式：

USER <用户名>[:<用户组>]

「ONBUILD」

用于延迟构建命令的执行。简单的说，就是 Dockerfile 里用 ONBUILD 指定的命令，在本次构建镜像的过程中不会执行（假设镜像为 test-build）。当有新的 Dockerfile 使用了之前构建的镜像 FROM test-build ，这时执行新镜像的 Dockerfile 构建时候，会执行 test-build 的 Dockerfile 里的 ONBUILD 指定的命令。

格式：

ONBUILD <其它指令>

原则与建议

编写Dockerfile的一些原则和建议

容器轻量化。从镜像中产生的容器应该尽量轻量化，能在足够短的时间内停止、销毁、重新生成并替换原来的容器。
使用 .gitignore。在大部分情况下，Dockerfile 会和构建所需的文件放在同一个目录中，为了提高构建的性能，应该使用 .gitignore 来过滤掉不需要的文件和目录。
为了减少镜像的大小，减少依赖，仅安装需要的软件包。
一个容器只做一件事。解耦复杂的应用，分成多个容器，而不是所有东西都放在一个容器内运行。如一个 Python Web 应用，可能需要 Server、DB、Cache、MQ、Log 等几个容器。一个更加极端的说法：One process per container。
减少镜像的图层。不要多个 Label、ENV 等标签。
对续行的参数按照字母表排序，特别是使用apt-get install -y安装包的时候。
使用构建缓存。如果不想使用缓存，可以在构建的时候使用参数--no-cache=true来强制重新生成中间镜像。

总结

「一张图总结Dockerfile指令」