MongoDB 监控（十）MongoDB 副本集集群搭建及获取副本集状态

快猫实习生 2024-11-18 17:31:24

MongoDB 监控

这是 MongoDB 监控系列文章的第十篇，前面几篇文章的链接如下：

之前的章节我们重点研究的是 MongoDB 单节点模式，这一节我们探索一下 MongoDB 的副本集集群以及相关的监控命令。MongoDB 的副本集集群有点像是 MySQL 的一主多从的方式，具备高可用能力，但是不具备水平扩展能力，如果想要水平扩展能力，则需要使用分片集群。多个副本集集群组成一套分片集群。

MongoDB 副本集集群搭建

参考：https://www.cnblogs.com/studyjobs/p/17643808.html

我们使用 docker compose 快速启动一个 MongoDB 副本集集群，首先创建三个目录，存放三个 MongoDB 实例的数据：

mkdir -p /Users/ulric/works/mongos/mongo1
mkdir -p /Users/ulric/works/mongos/mongo2
mkdir -p /Users/ulric/works/mongos/mongo3

mongodb 使用 keyFile 进行认证，副本集群中的每个节点的 mongodb 使用 keyFile 的内容作为认证其他成员的共享密码。mongodb 实例只有拥有正确的 keyFile 才可以加入副本集群，集群中所有成员的 keyFile 内容必须相同。

cd /Users/ulric/works/mongos
openssl rand -base64 666 > mongodb.key

mongodb 的集群其实有 3 种角色：主节点、从节点、仲裁节点（可选，可有可无）

主节点（Primary）：主要负责数据的写操作，当然也可以读取数据，大部分命令需要在主节点才能运行。
从节点（Secondary）：从主节点实时同步数据，只能读取数据，不能进行写操作。
仲裁节点（Arbiter）：不保留任何数据的副本，只能用来投票选举使用。

本篇博客的演示中，没有去设置仲裁节点，3 个节点都保留数据副本。在 /Users/ulric/works/mongos 目录下创建 docker-compose.yml 文件：

services:
  # 服务名称
  mongodb1:
    # 使用最新的 mongodb 镜像
    image: mongo:latest
    # docker 服务启动时，自动启动 mongo 容器
    restart: always
    # 容器的名称
    container_name: mongo1
    # 宿主机中的目录和文件，映射容器内部的目录和文件
    volumes:
      - /Users/ulric/works/mongos/mongo1:/data/db
      - /Users/ulric/works/mongos/mongodb.key:/data/mongodb.key
    ports:
      # 宿主机的端口映射容器内的端口
      - 27017:27017
    environment:
      # 初始化一个 root 角色的用户 jobs 密码是 123456
      - MONGO_INITDB_ROOT_USERNAME=jobs
      - MONGO_INITDB_ROOT_PASSWORD=123456
    # 使用创建的桥接网络，把各个 mongodb 容器连接在一起
    networks:
      - mongoNetwork
    # 启动容器时，在容器内部额外执行的命令
    # 其中 --replSet 参数后面的 mongos 是集群名称，这个很重要
    command: mongod --replSet mongos --keyFile /data/mongodb.key
    entrypoint:
      - bash
      - -c
      - |
        chmod 400 /data/mongodb.key
        chown 999:999 /data/mongodb.key
        exec docker-entrypoint.sh $$@        
  
  mongodb2:
    image: mongo:latest
    restart: always
    container_name: mongo2
    volumes:
      - /Users/ulric/works/mongos/mongo2:/data/db
      - /Users/ulric/works/mongos/mongodb.key:/data/mongodb.key
    ports:
      - 27018:27017
    environment:
      - MONGO_INITDB_ROOT_USERNAME=jobs
      - MONGO_INITDB_ROOT_PASSWORD=123456
    networks:
      - mongoNetwork
    command: mongod --replSet mongos --keyFile /data/mongodb.key
    entrypoint:
      - bash
      - -c
      - |
        chmod 400 /data/mongodb.key
        chown 999:999 /data/mongodb.key
        exec docker-entrypoint.sh $$@        
 
  mongodb3:
    image: mongo:latest
    restart: always
    container_name: mongo3
    volumes:
      - /Users/ulric/works/mongos/mongo3:/data/db
      - /Users/ulric/works/mongos/mongodb.key:/data/mongodb.key
    ports:
      - 27019:27017
    environment:
      - MONGO_INITDB_ROOT_USERNAME=jobs
      - MONGO_INITDB_ROOT_PASSWORD=123456
    networks:
      - mongoNetwork
    command: mongod --replSet mongos --keyFile /data/mongodb.key
    entrypoint:
      - bash
      - -c
      - |
        chmod 400 /data/mongodb.key
        chown 999:999 /data/mongodb.key
        exec docker-entrypoint.sh $$@        
 
# 创建一个桥接网络，把各个 mongodb 实例连接在一起，该网络适用于单机
# 如果在不同的宿主机上，使用 docker swarm 需要创建 overlay 网络
networks:
  mongoNetwork:
    driver: bridge

然后执行 docker compose up -d 启动 MongoDB 副本集集群，启动后可以通过 docker ps 查看容器是否启动成功。

随便进入其中一个容器，比如进入 mongo1 docker exec -it mongo1 bash，然后进入 mongo 客户端 mongosh -u jobs -p 123456，执行以下命令配置将 3 个节点初始化为一个副本集群：

rs.initiate({
    _id: "mongos",
    members: [
        { _id : 0, host : "10.211.55.2:27017" },
        { _id : 1, host : "10.211.55.2:27018" },
        { _id : 2, host : "10.211.55.2:27019" }
    ]
});

初始化完成之后，通过 rs.status() 命令可以看到副本集集群的状态：

mongos [direct: primary] test> use admin
switched to db admin
mongos [direct: primary] admin> rs.status()
{
  set: 'mongos',
  date: ISODate('2024-11-18T09:39:48.651Z'),
  myState: 1,
  term: Long('1'),
  syncSourceHost: '',
  syncSourceId: -1,
  heartbeatIntervalMillis: Long('2000'),
  majorityVoteCount: 2,
  writeMajorityCount: 2,
  votingMembersCount: 3,
  writableVotingMembersCount: 3,
  optimes: {
    lastCommittedOpTime: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
    lastCommittedWallTime: ISODate('2024-11-18T09:39:40.165Z'),
    readConcernMajorityOpTime: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
    appliedOpTime: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
    durableOpTime: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
    writtenOpTime: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
    lastAppliedWallTime: ISODate('2024-11-18T09:39:40.165Z'),
    lastDurableWallTime: ISODate('2024-11-18T09:39:40.165Z'),
    lastWrittenWallTime: ISODate('2024-11-18T09:39:40.165Z')
  },
  lastStableRecoveryTimestamp: Timestamp({ t: 1731922730, i: 1 }),
  electionCandidateMetrics: {
    lastElectionReason: 'electionTimeout',
    lastElectionDate: ISODate('2024-11-18T08:21:08.285Z'),
    electionTerm: Long('1'),
    lastCommittedOpTimeAtElection: { ts: Timestamp({ t: 1731918057, i: 1 }), t: Long('-1') },
    lastSeenWrittenOpTimeAtElection: { ts: Timestamp({ t: 1731918057, i: 1 }), t: Long('-1') },
    lastSeenOpTimeAtElection: { ts: Timestamp({ t: 1731918057, i: 1 }), t: Long('-1') },
    numVotesNeeded: 2,
    priorityAtElection: 1,
    electionTimeoutMillis: Long('10000'),
    numCatchUpOps: Long('0'),
    newTermStartDate: ISODate('2024-11-18T08:21:08.329Z'),
    wMajorityWriteAvailabilityDate: ISODate('2024-11-18T08:21:08.820Z')
  },
  members: [
    {
      _id: 0,
      name: '10.211.55.2:27017',
      health: 1,
      state: 1,
      stateStr: 'PRIMARY',
      uptime: 5067,
      optime: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
      optimeDate: ISODate('2024-11-18T09:39:40.000Z'),
      optimeWritten: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
      optimeWrittenDate: ISODate('2024-11-18T09:39:40.000Z'),
      lastAppliedWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      lastDurableWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      lastWrittenWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      syncSourceHost: '',
      syncSourceId: -1,
      infoMessage: '',
      electionTime: Timestamp({ t: 1731918068, i: 1 }),
      electionDate: ISODate('2024-11-18T08:21:08.000Z'),
      configVersion: 1,
      configTerm: 1,
      self: true,
      lastHeartbeatMessage: ''
    },
    {
      _id: 1,
      name: '10.211.55.2:27018',
      health: 1,
      state: 2,
      stateStr: 'SECONDARY',
      uptime: 4731,
      optime: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
      optimeDurable: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
      optimeWritten: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
      optimeDate: ISODate('2024-11-18T09:39:40.000Z'),
      optimeDurableDate: ISODate('2024-11-18T09:39:40.000Z'),
      optimeWrittenDate: ISODate('2024-11-18T09:39:40.000Z'),
      lastAppliedWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      lastDurableWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      lastWrittenWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      lastHeartbeat: ISODate('2024-11-18T09:39:47.018Z'),
      lastHeartbeatRecv: ISODate('2024-11-18T09:39:47.014Z'),
      pingMs: Long('0'),
      lastHeartbeatMessage: '',
      syncSourceHost: '10.211.55.2:27017',
      syncSourceId: 0,
      infoMessage: '',
      configVersion: 1,
      configTerm: 1
    },
    {
      _id: 2,
      name: '10.211.55.2:27019',
      health: 1,
      state: 2,
      stateStr: 'SECONDARY',
      uptime: 4731,
      optime: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
      optimeDurable: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
      optimeWritten: { ts: Timestamp({ t: 1731922780, i: 1 }), t: Long('1') },
      optimeDate: ISODate('2024-11-18T09:39:40.000Z'),
      optimeDurableDate: ISODate('2024-11-18T09:39:40.000Z'),
      optimeWrittenDate: ISODate('2024-11-18T09:39:40.000Z'),
      lastAppliedWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      lastDurableWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      lastWrittenWallTime: ISODate('2024-11-18T09:39:40.165Z'),
      lastHeartbeat: ISODate('2024-11-18T09:39:47.018Z'),
      lastHeartbeatRecv: ISODate('2024-11-18T09:39:47.013Z'),
      pingMs: Long('0'),
      lastHeartbeatMessage: '',
      syncSourceHost: '10.211.55.2:27017',
      syncSourceId: 0,
      infoMessage: '',
      configVersion: 1,
      configTerm: 1
    }
  ],
  ok: 1,
  '$clusterTime': {
    clusterTime: Timestamp({ t: 1731922780, i: 1 }),
    signature: {
      hash: Binary.createFromBase64('pGZHCVLcTS6roDiQL8DsOUTkKD0=', 0),
      keyId: Long('7438531461411504133')
    }
  },
  operationTime: Timestamp({ t: 1731922780, i: 1 })
}

通过上面的输出可以看到，三个实例，其中一个是主节点，两个是从节点，这样就搭建了一个 MongoDB 副本集集群。每个实例都有很多字段，比如 health、state、uptime、optime、lastHeartbeat 等等，正常的集群，三个节点的 optimeDate 应该是类似的。一般监控数据采集器 agent 会采集 MongoDB 的副本集信息，通常执行的是 db.runCommand({replSetGetStatus: 1}) 命令，和 rs.status() 命令效果一样。

MongoDB 监控（十）MongoDB 副本集集群搭建及获取副本集状态

MongoDB 副本集集群搭建

最新博客

最新博客