Zabbix failed another network error

История: Zabbix начал периодично показывать недоступность 2-х из 61 узлов. Началось ночью в воскресенье. Периодичность разная от 2 до 30 минут.

Описание:
Zabbix сервер 3.2 на Debian 7.11.
V01 – Windows. Zabbix агент 2.0.8 (revision 38015)
V06 – Windows. Zabbix агент 2.0.8 (revision 38015)

Все хосты лежат на одном гипервизоре ESXi, в одном VLAN-е, в одной подсети.

Выглядит так:
zabbix-network-01

zabbix-network-02

Гипервизор – не показывает Статусы в Health Status. Пишет на них “Unknown”. Операция Reset Sensors – не выполняется. Получено ответ:

Call "HostHealthStatusSystem.ResetSystemHealthInfo" for object "healthStatusSystem" on ESXi "x1" failed

Смотрим в лог Zabbix-сервера, видим:

  3116:20161128:113431.461 Zabbix agent item "system.cpu.load[percpu,avg5]" on host "V01" failed: first network error, wait for 15 seconds
  3084:20161128:113454.189 Zabbix agent item "system.cpu.load[percpu,avg15]" on host "V06" failed: first network error, wait for 15 seconds
  3171:20161128:113509.131 resuming Zabbix agent checks on host "V06": connection restored
  3103:20161128:113513.451 Zabbix agent item "net.if.out[WAN Miniport (IP)]" on host "V06" failed: first network error, wait for 15 seconds
  3179:20161128:113516.109 temporarily disabling Zabbix agent checks on host "V01": host unavailable
  3181:20161128:113558.159 temporarily disabling Zabbix agent checks on host "V06": host unavailable
  3194:20161128:113616.142 enabling Zabbix agent checks on host "V01": host became available
  3180:20161128:113646.146 Zabbix agent item "system.uptime" on host "V01" failed: first network error, wait for 15 seconds
  3183:20161128:113700.193 enabling Zabbix agent checks on host "V06": host became available
  3119:20161128:113701.141 Zabbix agent item "net.if.out[]" on host "V01" failed: another network error, wait for 15 seconds
  3117:20161128:113704.182 Zabbix agent item "vfs.fs.size[C:,pfree]" on host "V01" failed: another network error, wait for 15 seconds

Никаких действий с хостами до или в момент начало проблемы не производилось. Хосты не выключались 497 дней.

В момент наличия проблемы: загрузка CPU, сети – у самих хостов и гипервизора – минимальная. Никакой активности.

Анализ сетевого трафика между клиентами и сервером забикса ничего не дал: все ходит, задержек нет:

# ping 192.168.112.56
PING 192.168.112.56 (192.168.112.56) 56(84) bytes of data.
64 bytes from 192.168.112.56: icmp_req=1 ttl=128 time=0.428 ms
64 bytes from 192.168.112.56: icmp_req=2 ttl=128 time=0.261 ms
64 bytes from 192.168.112.56: icmp_req=3 ttl=128 time=0.298 ms
64 bytes from 192.168.112.56: icmp_req=4 ttl=128 time=0.407 ms

Маршрут между клиентами и сервером:

# traceroute 192.168.112.56
traceroute to 192.168.112.56 (192.168.112.56), 30 hops max, 60 byte packets
 1  v06.domain.local (192.168.112.56)  0.148 ms * *

Включил Debug=4 на сервере забикс для поиска причины:

3743:20161128:100924.105 End of get_value_agent():NETWORK_ERROR
3743:20161128:100924.105 Item [V01:perf_counter[\234(_Total)\1404]] error: Get value from agent failed: cannot connect to [[192.168.112.51]:10050]: [4] Inte
rrupted system call
3743:20161128:100924.105 End of get_value():NETWORK_ERROR

Перезапуск заббикс-агентов/забикс сервера – ничего не дал. Наверное и не должен был.

Обновление агента до Zabbix 3.2.0 (revision 62444) – ничего не изменило.
Установка значения Timeout=10 на агенте – ничего не дало.

Перезапуск хоста V01 помог. – По нему сообщения “failed: first network error” в логе перестали появляться.

Увидел задержку c Zabbix-сервера увидел. После 3-4-ой команды идет тайм-аут:

[email protected]: # nc -v -z 192.168.112.56 10050
v06.domain.local [192.168.112.56] 10050 (zabbix-agent) open
[email protected]: # nc -v -z 192.168.112.56 10050
v06.domain.local [192.168.112.56] 10050 (zabbix-agent) : Connection timed out

Та же команда с соседнего сервера (FreeBSD 10.3) не ловит тайм-аут, сколько бы раз не запускал :

Connection to 192.168.112.56 10050 port [tcp/*] succeeded!
[email protected]: # nc -v -z 192.168.112.56 10050
Connection to 192.168.112.56 10050 port [tcp/*] succeeded!
[email protected]: # nc -v -z 192.168.112.56 10050
Connection to 192.168.112.56 10050 port [tcp/*] succeeded!
[email protected]: # nc -v -z 192.168.112.56 10050
Connection to 192.168.112.56 10050 port [tcp/*] succeeded!

Отключение/включение сетевого интерфейса на хосте 192.168.112.56 не дало эффекта.

Перегрузили V06 (192.168.112.56) – проблема ушла.

Настоящая причина не найдена.