Ir para o conteúdo

Como posso solucionar o atraso de replicação ou um backlog no meu servidor de origem do Windows para o Application Migration Service?

9 minuto de leitura
0

Vejo um atraso ou backlog no meu servidor de origem do Windows ao replicar dados usando o AWS Application Migration Service.

Breve descrição

Você enfrenta atrasos e backlogs ao replicar dados pelos seguintes motivos:

  • A baixa velocidade da conexão de rede não permitiu que o processo de replicação fosse concluído ou sua largura de banda limitou a quantidade de dados que é possível replicar.
  • Grandes picos em novos dados de disco causaram um backlog que o AWS Replication Agent deve enviar com a sincronização inicial.
  • A alta latência de leitura nos discos do servidor de origem atrasou a replicação do disco.
  • O alto uso de CPU, de memória, de espera de E/S ou de outros recursos causou gargalos na replicação.
  • Você escolheu volumes de preparação do Amazon Elastic Block Store (Amazon EBS) com baixa throughput ou operações de entrada e saída por segundo (IOPS) e servidores com largura de banda da rede limitada. Isso causa problemas de latência e desempenho durante a replicação.

Resolução

Observação: se você receber erros ao executar comandos da AWS Command Line Interface (AWS CLI), consulte Solução de problemas da AWS CLI. Além disso, verifique se você está usando a versão mais recente da AWS CLI.

Verifique o servidor de origem

Verifique o status do servidor de origem

Certifique-se de que o servidor de origem da migração esteja inicializado e em execução.

Verifique se os processos do AWS Replication Agent estão em execução

Execute o seguinte comando do PowerShell para listar os serviços do AWS Replication Agent em execução:

get-service | where-object name -like "*AWSR*"

Na saída, verifique se AWSReplicationService está Em execução.

Exemplo de saída:

PS C:\Users\Administrator> get-service | where-object name -like "*AWSR*"

Status   Name               DisplayName
------   ----               -----------
Running  AwsReplicationD... AwsReplicationDriverLogger
Running  AwsReplicationL... AwsReplicationLogger
Stopped  AwsReplicationP... AwsReplicationPostConvertService
Running  AwsReplicationS... AwsReplicationService
Running  AwsReplicationV... AwsReplicationVolumeUpdaterService

Ou pressione Windows + R e digite services.msc. Pressione Enter e verifique se AWSReplicationService está Em execução.

Verifique as conexões TCP ativas

Verifique se há cinco conexões TCP ativas estabelecidas com o servidor de replicação na porta TCP 1500.

Para verificar a porta TCP 1500, execute o seguinte comando como administrador:

netstat -an | find "1500"

Verifique a saída do comando para visualizar as conexões ativas.

Exemplo de saída:

TCP    172.31.82.135:50929    Replicator Instance IP:1500    ESTABLISHED
TCP    172.31.82.135:50930    Replicator Instance IP:1500    ESTABLISHED
TCP    172.31.82.135:50931    Replicator Instance IP:1500    ESTABLISHED
TCP    172.31.82.135:50933    Replicator Instance IP:1500    ESTABLISHED
TCP    172.31.82.135:50934    Replicator Instance IP:1500    ESTABLISHED

Use o Monitor de Recursos do Windows para verificar o desempenho no servidor de origem

O AWS Replication Agent opera em um núcleo de CPU por vez. Se o uso da CPU estiver alta no núcleo em que o AWS Replication Agent está sendo executado, a replicação de dados fica mais lenta. Para verificar seu uso da CPU, conclua as seguintes etapas:

  1. Abra o Gerenciador de tarefas e clique na guia Desempenho. Em seguida, selecione Abrir monitor de recursos.
    -ou-
    Abra o Painel de controle e selecione Ferramentas administrativas. Em seguida, clique em Monitor de recursos.
    -ou-
    Execute resmon.exe na linha de comandos ou no PowerShell.
    -ou
    Clique no ícone do Windows e, em seguida, digite resmon.exe.
  2. Verifique o uso da CPU do núcleo da CPU em que o AWS Replication Agent está sendo executado.
    Se o uso da CPU for alto nesse núcleo, investigue o processo que consome a maior parte da CPU. Se o agente usar pelo menos 5% da CPU, verifique se há CPU disponível suficiente para o agente realizar a replicação dos dados.
  3. Verifique o desempenho do disco no servidor de origem. Em Atividade do disco, verifique as métricas Gravação (B/sec) and Tempo de resposta.
    Se houver baixa throughput de leitura no disco de origem, o agente lê e replica menos dados. Observe qualquer aumento nas métricas de leitura e gravação do disco.
    Observação: a largura de banda necessária para transferir os dados replicados pela porta TCP 1500 é baseada na velocidade de gravação do servidor de origem participante. É uma prática recomendada ter uma largura de banda que seja pelo menos a soma da velocidade média de gravação de todas as máquinas de origem replicadas.
  4. Verifique se há um pico nas operações de gravação no servidor de origem. Em Atividade do disco, verifique a métrica Gravação (B/seg).
    Conforme o workload muda, verifique o desempenho do disco periodicamente para determinar a carga de E/S. Se a throughput de gravação exceder a quantidade fornecida de throughput da rede, você enfrentará um atraso na replicação.
  5. (Opcional) Calcule a largura de banda necessária do servidor de origem para o servidor de replicação.
    Observação: se o seu servidor de origem tiver muita gravação e gravar mais do que a velocidade de replicação, o backlog continuará aumentando.

Verifique a velocidade de replicação e a largura de banda disponível do servidor de origem para a sub-rede da área de staging

Para obter mais informações sobre como executar um teste de velocidade, consulte How can I perform an SSL connectivity and bandwidth test? (Como posso realizar um teste de conectividade e largura de banda SSL?)

Verifique se um servidor de origem foi desligado desordenadamente

Se um servidor de origem for desligado desordenadamente, o AWS Replication Agent verificará novamente todos os discos após a reinicialização do servidor. À medida que o AWS Replication Agent relê os discos, o atraso aumenta continuamente até que o agente conclua a verificação. Para obter mais informações, consulte Which Windows and Linux OSs support no-rescan upon reboot? (Quais sistemas operacionais Windows e Linux suportam a detecção automática de dispositivos após a reinicialização?)

Para verificar como a máquina de origem foi desligada, conclua as seguintes etapas:

  1. Pressione Windows + R e, em seguida, digite eventvwr.msc.
  2. Pressione Enter.
  3. No painel de navegação, clique duas vezes em Logs do Windows para expandir as opções.
  4. Abra o menu de contexto (clique com o botão direito do mouse) em Sistema.
  5. Selecione Filtrar log atual.
  6. Clique na seta para baixo Fontes de eventos e, em seguida, selecione USER32.
  7. Em Todas as IDs de eventos, digite 1074 e clique em OK. O Visualizador de eventos mostra uma lista de eventos de desligamento e reinicialização de Tipo de desligamento.
  8. Para ver as datas e horas de todos os desligamentos inesperados do computador, digite 6008 no campo Todos os IDs de eventos e clique em OK.

Verifique se você não bloqueou o tráfego de saída da porta TCP 1500

Para confirmar se o tráfego de saída da porta TCP 1500 do servidor de origem para o servidor de replicação não está bloqueado, execute um dos seguintes comandos:

Do CMD, execute o seguinte comando:

telnet replication-subnet-IP-address 1500

Do PowerShell, execute o seguinte comando:

TNC replication-subnet-IP-address -port 1500

Observação: substitua replication-subnet-IP-address pelo endereço IP da sua instância replicadora.

Certifique-se de que seu firewall local permite a conectividade do servidor de origem para o servidor de replicação pela porta TCP 443. Para ativar a conectividade no firewall do sistema operacional (OS), conclua as seguintes etapas:

  1. No servidor de origem, abra o console do Firewall do Windows.
  2. Selecione Regras de saída.
  3. Na tabela Regras de saída, selecione a regra relacionada à conexão remota da porta 1500. Verifique se o status Ativado está definido como Sim.
  4. Se o status Ativado da regra for Não, abra o menu de contexto (clique com o botão direito do mouse) da regra. Em seguida, selecione Ativar regra.

Certifique-se de que seu firewall corporativo permita tráfego pela porta TCP 1500.

Verifique se o controle de utilização da largura de banda está desativado nas configurações de replicação no servidor de origem

Desative o controle de utilização da largura de banda no servidor de origem para manter largura de banda suficiente para transferências de dados do servidor de origem para a sub-rede da área de staging. O controle de utilização da largura de banda pode causar um atraso de crescimento constante ou estagnado, pois limita a replicação de dados do servidor de origem para o servidor de replicação.

Para verificar o controle de utilização da largura de banda, conclua as seguintes etapas:

  1. Abra o console do Application Migration Service.
  2. Selecione Configurações.
  3. Em Roteamento e controle de utilização de dados, selecione o modelo de replicação.
  4. Selecione Não controlar a utilização a largura de banda para permitir que a replicação use toda a capacidade de rede disponível e reduza o tempo de migração.
    Observação: quando você seleciona Controlar a utilização da largura de banda, o Application Migration Service limita artificialmente as velocidades de transferência de dados. Isso cria um gargalo que retarda o processo de replicação. Selecione essa opção somente se precisar limitar o uso da rede para controlar custos ou proteger recursos para outras aplicações essenciais.

Verifique os recursos da área de staging

Verifique se o tráfego de entrada da porta TCP 1500 não está bloqueado

Para confirmar que os grupos de segurança do servidor de replicação não bloqueiam o tráfego de entrada da porta TCP 1500, conclua as seguintes etapas:

  1. Abra o console do Amazon Elastic Compute Cloud (Amazon EC2).
  2. No painel de navegação, selecione Grupos de segurança e selecione o grupo de segurança anexado à instância replicadora.
  3. Verifique se o grupo de segurança permite o tráfego de entrada da porta TCP 1500.

Analise seus recursos de preparação

Verifique a configuração da instância de replicação e do disco de preparação para ver se há gargalos de desempenho.

Verifique a cota de snapshot na região de destino

Certifique-se de que sua conta da AWS não tenha excedido a cota de snapshot na região da AWS do servidor de replicação.

Para verificar sua cota de snapshot na região, execute o seguinte comando get-service-quota da AWS CLI:

aws service-quotas get-service-quota --service-code ebs --quota-code L-309BACF6 --region regionexample --query "Quota.Value"  

Observação: substitua regionexample pela sua região.

Em seguida, execute o seguinte comando describe-snapshots para verificar os snapshots na região:

aws ec2 describe-snapshots --owner-ids self --region regionexample --query "length(Snapshots)"

Observação: substitua regionexample pela sua região.