Tareas #5619
Lentitud en containers proxmox
Estado: | En curso | Fecha de inicio: | 2017-03-12 | ||
---|---|---|---|---|---|
Prioridad: | Normal | Fecha fin: | |||
Asignado a: | Daniel Viñar Ulriksen | % Realizado: | 10% | ||
Categoría: | - | Tiempo dedicado: | - | ||
Versión prevista: | - |
Descripción
Peticiones relacionadas
Histórico
#1 Actualizado por Daniel Viñar Ulriksen hace casi 2 años
- Añadido relacionada con Tareas #5674: firewall en carlevaro
#2 Actualizado por Daniel Viñar Ulriksen hace 8 meses
- Estado cambiado Nueva por En curso
- Asignado a cambiado Andrés Pías por Daniel Viñar Ulriksen
Retomo esta tarea, que es recurrente. Hubo un problema de resolución Iv6, que efectivamente provocaba buena parte de las lentitudes, pero ahora está resuelto, y parece no ser lo único. Creoamos un primer virtual para migrar Caldeyro, y Sebastián y Rafael nos reporta esto:
El 17/05/18 a las 21:58, Sebastián Sasías escribió:
como te comentaba la otra vez vemos que el servidor está demasiado lento. Se aprecian tiempos de respuesta mucho mas altos de lo normal, Rafael lo ha probado sin duda mucho mas que yo y ha realizado pruebas conmigo al lado comparando la respuesta con otros equipos (incluso viejos de sobremesa) y realmente las diferencias son demasiado notorias.
La muy ligera sospecha que hay es que el tema puede venir por el lado de la performance del disco, ya sean limitaciones de fábrica o por mal funcionamiento.
El 23/05/18 a las 11:10, Rafael E. Saa escribió:
Lo que Caldeyro hace para nosotros se basa fundamentalmente en el manejador de bases de datos, por lo que, ante la sospecha de que fuera un tema de disco, las pruebas que hice apuntan a eso.
Concretamente el tiempo de reconstruccion de una tabla de 100Mb le lleva 5 minutos, la misma acción en un core i3 con 4Gb de ram llevó 33 segundos (mismo DBMS, misma configuración, misma tabla ya que está replicada).
#3 Actualizado por Daniel Viñar Ulriksen hace 8 meses
Probamos ver dato de los discos:
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.4.98-2-pve] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: HP Product: LOGICAL VOLUME Revision: 3.52 User Capacity: 2.000.365.379.584 bytes [2,00 TB] Logical block size: 512 bytes Rotation Rate: 15000 rpm Logical Unit id: 0x600508b1001c7c0346603dcfd5977320 Serial number: PACCRID110104FD Device type: disk Local Time is: Fri Jun 8 14:20:43 2018 -03 SMART support is: Unavailable - device lacks SMART capability. === START OF READ SMART DATA SECTION === Current Drive Temperature: 0 C Drive Trip Temperature: 0 C Error Counter logging not supported Device does not support Self Test logging root@sabato:~# smartctl -a /dev/sda smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.4.98-2-pve] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: HP Product: LOGICAL VOLUME Revision: 3.52 User Capacity: 500.074.307.584 bytes [500 GB] Logical block size: 512 bytes Rotation Rate: 15000 rpm Logical Unit id: 0x600508b1001c69f6fad2e88a27373cff Serial number: PACCRID110104FD Device type: disk Local Time is: Fri Jun 8 14:21:32 2018 -03 SMART support is: Unavailable - device lacks SMART capability. === START OF READ SMART DATA SECTION === Current Drive Temperature: 0 C Drive Trip Temperature: 0 C Error Counter logging not supported Device does not support Self Test logging
Y también:
root@sabato:~# badblocks -v /dev/sdb1 Revisando los bloques del 0 al 1953479503 Se están revisando los bloques dañados (prueba de sólo lectura): hecho Paso terminado, se encontraron 0 bloques dañados. (0/0/0 errores)
#4 Actualizado por Daniel Viñar Ulriksen hace 8 meses
- % Realizado cambiado 0 por 10
Se sugiere, también, empezar por un smartctl. No obstante, siendo discos virtuales tal cual mostrados por una controladora RAID, los discos físicos están detrás, y hay que poner comandos específicos a la controladora para que tire la info Así, por ejemplo, en Hipatia logramos ver:
root@hipatia:~# smartctl -d megaraid,17 -a /dev/sda smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: IBM-ESXS Product: ST2000NM0023 Revision: BC5B Compliance: SPC-4 User Capacity: 2.000.398.934.016 bytes [2,00 TB] Logical block size: 512 bytes Formatted with type 2 protection LB provisioning type: unreported, LBPME=0, LBPRZ=0 Rotation Rate: 7200 rpm Form Factor: 3.5 inches Logical Unit id: 0x5000c5005737813b Serial number: Z1X0REWS0000C406FTQA Device type: disk Transport protocol: SAS (SPL-3) Local Time is: Fri Jun 22 14:22:25 2018 -03 SMART support is: Available - device has SMART capability. SMART support is: Enabled Temperature Warning: Enabled === START OF READ SMART DATA SECTION === SMART Health Status: OK Current Drive Temperature: 30 C Drive Trip Temperature: 65 C Elements in grown defect list: 0 Vendor (Seagate) cache information Blocks sent to initiator = 0 Vendor (Seagate/Hitachi) factory information number of hours powered up = 37983,25 number of minutes until next internal SMART test = 57 Error counter log: Errors Corrected by Total Correction Gigabytes Total ECC rereads/ errors algorithm processed uncorrected fast | delayed rewrites corrected invocations [10^9 bytes] errors read: 3601903479 0 0 3601903479 0 176887,456 0 write: 0 0 0 0 0 197911,426 0 verify: 4289531227 0 0 4289531227 0 8039,251 0 Non-medium error count: 16 SMART Self-test log Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ] Description number (hours) # 1 Background short Completed - 1171 - [- - -] Long (extended) Self Test duration: 18300 seconds [305,0 minutes]
#5 Actualizado por Daniel Viñar Ulriksen hace 8 meses
Pero en el HP, tenemos este controlador:
root@sabato:/etc/apt/sources.list.d# lspci | grep RAID 05:00.0 RAID bus controller: Hewlett-Packard Company Smart Array G6 controllers (rev 01)
que no es soportado por smartmontools. Necesitamos el utilitario privativo hpacucli, que se puede instalar en debian
Nos dio un error con la clave gpg, pero la pudimos importar así:
root@sabato:/etc/apt/sources.list.d# gpg --recv-keys C208ADDE26C2B797 gpg: solicitando clave 26C2B797 de hkp servidor keys.gnupg.net gpg: clave 26C2B797: clave pública "Hewlett Packard Enterprise Company RSA-2048-25 <signhp@hpe.com>" importada gpg: Cantidad total procesada: 1 gpg: importadas: 1 (RSA: 1)
#6 Actualizado por Daniel Viñar Ulriksen hace 8 meses
Ese repo propone otros paquetes que los mencionados, y aparentemente el hpacucli
ya no existe realmente:
root@sabato:~# aptitude search "?origin(HPE)" p amsd - Agentless Management Service for servers with iLO5 C hp-ams - Agentless Management Service for HP ProLiant servers with iLO4 i hp-health - hp System Health Application and Command line Utility Package p hp-smh-templates - HP System Management Homepage Templates p hp-snmp-agents - Insight Management SNMP Agents for HP ProLiant Systems i hponcfg - RILOE II/iLo online configuration utility i hpsmh - HP System Management Homepage p ssa - Smart Storage Administration Utility p ssacli - Command Line Smart Storage Administration Utility i ssaducli - Array Smart Storage Administration Diagnostics Utility CLI
logramos un reporte con:
root@sabato:~# ssaducli -f reporte.zip -v
Pero no vemos nada muy extraño en los reportes...
#7 Actualizado por Daniel Viñar Ulriksen hace 8 meses
Volvamos a las medidas de performance, Proxmox ofrece una herramienta sintética de benchmark de performance, pveperf
:
root@sabato:~# pveperf CPU BOGOMIPS: 31983.32 REGEX/SECOND: 840341 HD SIZE: 94.37 GB (/dev/dm-0) BUFFERED READS: 89.84 MB/sec AVERAGE SEEK TIME: 12.32 ms FSYNCS/SECOND: 52.33 DNS EXT: 302.50 ms DNS INT: 1.31 ms (csic.edu.uy)
A título de comparación (aunque no son dos plataformas comparables), en un servidor del CENUR Este con Proxmox:
root@chuy:~# pveperf CPU BOGOMIPS: 190402.24 REGEX/SECOND: 1786396 HD SIZE: 93.99 GB (/dev/mapper/pve-root) BUFFERED READS: 547.56 MB/sec AVERAGE SEEK TIME: 4.76 ms FSYNCS/SECOND: 4745.38 DNS EXT: 824.83 ms DNS INT: 51.58 ms (cure.edu.uy)
Leyendo "la doc":, sobre el indicador FSYNCS/SECOND dice:
value should be greater than 200 (you should enable write back cache mode on you RAID controller - needs a battery backed cache (BBWC)).
En Sabato estamos muy por debajo. Conviene ir a verificar el setup del firmware del servidor.
#8 Actualizado por Daniel Viñar Ulriksen hace 8 meses
En el firmware del servidor (un HP proliant ML150 G6) no hay nada respecto al "write back" de la controladora de discos, y no se ve ninguna forma de actualizar el BIOS....
En un aprimera instancia, el BIOS indicó una mala configuración del array de discos, pero luego no se reprodujo.
Hay algunas otras referencias sobre problemas con el fsync/sec de pveperf pero no encontramos nada que se aplique acá...
Tiene un proxmox 4.4, cuyo soporte termina hoy. Convendría re-instalar el proxmox a una versión actual. OjO: el servidor sólo tiene un arranque BIOS, no UEFI.