一、 标准化目录结构全景
本项目采用"配置与数据分离"的工程化结构,确保可维护性与安全性。
~/my_ansible/
├── config/ # 【配置中心】
│ └── ansible.cfg # Ansible 全局配置文件 (定义路径、并发、日志)
│
├── inventory/ # 【资产与变量层】
│ ├── hosts # 静态主机清单 (仅定义 IP 和 分组)
│ └── group_vars/ # 组变量目录 (存放特定组的账号、密码、私钥)
│ └── NonProd_EC2_Running.yml # <--- 对应 hosts 中的 [NonProd_EC2_Running] 组
│
├── playbooks/ # 【业务逻辑层】
│ ├── set_tcp_retries2.yml # 具体的运维脚本
│ └── manage_jdk_certs.yml # 证书管理脚本
│
├── roles/ # 【组件复用层】
│ └── (预留用于存放复杂角色)
│
├── files/ # 【静态资源层】
│ └── Root-ca.pem # 需要分发到服务器的文件 (证书、安装包等)
│
└── logs/ # 【审计层】
└── ansible.log # 执行流水日志 (生产环境追溯必备)
二、 关键配置文件详解
1. 全局配置:config/ansible.cfg
此文件定义了 Ansible 的运行行为与性能参数。
[defaults]
# --- 基础路径配置 ---
# 强制指定 inventory 路径,无论在哪个目录执行命令,都能找到机器
inventory = /home/yanhaoyu/my_ansible/inventory/hosts
# 自动化审计日志路径
log_path = /home/yanhaoyu/my_ansible/logs/ansible.log
# --- 安全与交互 ---
# 关闭 SSH 首次连接的指纹确认 (自动化必须关闭)
host_key_checking = False
# 禁止加载系统默认 host 文件,防止干扰
disable_default_inventory = True
# 引用未定义变量时不报错,只警告
warn_on_undefined_vars = False
# --- 【新增】性能优化引擎 ---
# 并发数:默认是 5。生产环境建议设为 20-50,这意味着同时有 20 台机器在跑任务
forks = 20
# 执行策略:linear (默认,一批批跑) / free (谁快谁先跑下一个任务)
strategy = linear
[privilege_escalation]
# --- 提权配置 ---
# 默认开启提权
become = True
become_method = sudo
become_user = root
# 禁止弹窗询问密码 (依赖 group_vars 里的密码变量)
become_ask_pass = False
[ssh_connection]
# --- 【新增】连接加速 ---
# 开启流水线模式:显著减少 SSH 连接次数,大幅提升执行速度
# 注意:目标机器的 sudoers 配置不能包含 'requiretty'
pipelining = True
# SSH 长连接复用:60秒内重连同一台机器不需要再次握手
ssh_args = -o ControlMaster=auto -o ControlPersist=60s
2. 资产清单:inventory/hosts
仅记录 IP 地址与分组,不存放密码等敏感信息。
[test]
10.21.33.36
10.21.37.78
# 组名定义关键点:此名称 [NonProd_EC2_Running] 将作为变量文件的索引键
[NonProd_EC2_Running]
10.21.37.99
10.21.37.77
# ... 更多节点 ...
[all_ec2:children]
test
NonProd_EC2_Running
3. 组变量:inventory/group_vars/NonProd_EC2_Running.yml
定义特定组的连接凭证。
# --- 连接层配置 ---
# SSH 登录用户
ansible_user: dev
# SSH 私钥路径 (比密码更安全)
ansible_ssh_private_key_file: /home/ubuntu/.ssh/dev.pem
# 额外的 SSH 参数 (双重保险跳过指纹检查)
ansible_ssh_common_args: '-o StrictHostKeyChecking=no'
# --- 提权层配置 ---
# 开启 sudo
ansible_become: yes
# 提权后的目标用户
ansible_become_user: root
# 【关键】sudo 密码。配置了它,执行时就不需要 --ask-become-pass
ansible_become_pass: 'dev→root的sudo密码'
# --- 临时目录 ---
# 指定远程临时目录,解决部分服务器 /tmp 挂载 noexec 导致的执行失败问题
ansible_remote_tmp: /tmp/ansible_tmp
三、 核心原理:组名与变量是如何关联的?
很多用户会有疑问:当执行palybook中写到操作用户组[NonProd_EC2_Running.yml ],Ansible 怎么知道 NonProd_EC2_Running.yml 这个文件是给 [NonProd_EC2_Running] 这个组用的?
这是基于 Ansible 的 "隐式名称匹配机制" (Implicit Name Matching)。
关联逻辑三步走:
-
读取 Inventory:Ansible 读取 hosts 文件,识别到一个组名为 [NonProd_EC2_Running]。
-
扫描 group_vars:Ansible 自动前往 inventory/group_vars/ 目录下搜索。
-
精确匹配:它寻找文件名(去掉.yml后缀)与组名完全一致的文件。
-
组名:NonProd_EC2_Running
-
文件名:NonProd_EC2_Running.yml
-
结果:匹配成功!该文件内的所有变量自动注入到该组的所有服务器中。
注意:Linux 文件系统区分大小写。如果文件名叫 nonprod_ec2_running.yml (全小写),匹配将失效。
如果要调用[all_ec2:children],其下的test 组和 NonProd 组虽然机器不同,但它们都用同一个 SSH 用户和同一个 PEM 私钥,可以写一个 group_vars/all_ec2.yml
如果不是的话就把test组和NonProd 组分开写:
-
group_vars/test.yml里写一遍 user 和 key。 -
group_vars/NonProd_EC2_Running.yml里又写一遍 user 和 key。
四、 标准操作工作流
1. 激活环境 (Environment Activation)
由于配置文件不在默认路径,每次操作前需注入环境变量:
export ANSIBLE_CONFIG=~/my_ansible/config/ansible.cfg
2. 连通性与配置验证 (Ping Check)
验证并发配置 (forks) 和 权限配置 (become) 是否生效:
# 观察返回速度,如果有 20 台机器同时返回 pong,说明 forks=20 生效
ansible NonProd_EC2_Running -m ping
3. 执行业务 Playbook
无需指定 inventory 路径(config已定义),无需输入密码(vars已定义):
ansible-playbook playbooks/manage_jdk_certs.yml
4. 审计与排查
如果执行报错,查看详细日志:
tail -f ~/my_ansible/logs/ansible.log