Operator 是基于 CRD 和控制器模式实现的有状态应用运维自动化工具,CRD 定义自定义资源,Operator 实现其管理逻辑;kubebuilder 用于初始化项目并生成 CRD 与控制器骨架,Reconcile 函数负责对齐期望与实际状态,本地用 make run 调试,需注意 RBAC、CRD 安装及 status 更新等细节。
Operator 不是 Kubernetes 内置组件,而是基于 CustomResourceDefinition(CRD)和控制器模式实现的“有状态应用运维自动化工具”。它本质是一段 Go 程序,监听你定义的自定义资源(如 MyDatabase),再调用 client-go 对集群执行增删改查。CRD 是声明“我想管什么资源”,Operator 是“我怎么管它”——没 CRD,Operator 就没东西可监听。
kubebuilder 是目前最主流的 Operator 开发脚手架,它生成符合 controller-runtime 规范的目录结构和基础代码,避免手动拼接 scheme、client、reconcile 循环等易错环节。
确保已安装 kubebuilder(v3.x)、controller-gen 和 kubectl。运行:
mkdir myoperator && cd myoperator kubebuilder init --domain example.com --repo example.com/myoperator kubebuilder create api --group database --version v1alpha1 --kind MyDatabase
这会生成 CRD 定义(api/v1alpha1/mydatabase_types.go)、控制器骨架(controllers/mydatabase_controller.go)和 Makefile。关键点:
Makefile 中的 make manifests 调用 controller-gen 从 Go 注释生成 YAML CRD;必须保持 //+kubebuilder:* 注释完整,否则 CRD 缺字段MyDatabase struct 默认不含 Spec 和 Status 字段,需手动补全并加 json: tag,否则 client-go 序列化失败config/crd/bases/ 下的 YAML——它由 make manifests 覆盖,所有定义逻辑写在 Go 类型里Reconcile 函数不是“收到事件就创建 Pod”,而是“读取当前 MyDatabase 实例,检查集群中实际状态(Pod/Service/Secret 是否存在、版本是否匹配),再调用 client-go 打补丁使其趋近 Spec 描述的期望状态”。典型错误是忽略 Status 更新或忘记处理删除事件。
在 controllers/mydatabase_controller.go 的 Reconcile 方法中:
r.Get(ctx, req.NamespacedName, &mydb) 拿到最新自定义资源对
mydb.DeletionTimestamp != nil,若为 true,说明用户执行了 kubectl delete mydatabase xxx,应进入清理流程(如删掉关联的 StatefulSet)client.List() 查当前命名空间下是否存在对应 StatefulSet,再比对 mydb.Spec.Replicas 和 sts.Spec.Replicas,不一致才 Patchr.Status().Update(ctx, &mydb) 更新 Status.Conditions 或 Status.ObservedGeneration,否则下一次 reconcile 无法判断是否需要重试开发阶段不需要打包镜像、推仓库、部署 Deployment。kubebuilder 提供 make run 直接以进程方式运行控制器,连接本地 kubectl config 当前上下文的集群。
但要注意:
get/list/watch 对 mydatabases.database.example.com 的权限,以及对 pods/services 等内置资源的操作权make install 把 CRD 安装进集群,否则 r.Get 会报 no matches for kind "MyDatabase"
webhook server not ready,检查是否启用了 cert-manager 或手动禁用 webhook(删掉 config/default/kustomization.yaml 中的 webhook 行)真正上线时才走 make docker-build docker-push IMG=xxx + make deploy IMG=xxx。本地验证逻辑正确性,远比早早在集群里跑一个半成品重要。
CRD 的 validation schema、subresource(如 status)、finalizer 清理、ownerReference 设置——这些细节一旦漏掉,Operator 在真实场景中就会静默失败或残留资源。别指望 kubebuilder 自动生*部健壮逻辑。