Tareas #5619

Lentitud en containers proxmox

Añadido por Daniel Viñar Ulriksen hace más de 1 año. Actualizado hace 3 meses.

Estado:En cursoFecha de inicio:2017-03-12
Prioridad:NormalFecha fin:
Asignado a:Daniel Viñar Ulriksen% Realizado:

10%

Categoría:-Tiempo dedicado:-
Versión prevista:-

Descripción

Los containers del proxmox en Sabato (por ejemplo Boyce y Postel) tienen problemas de lentitudes puntuales, como que espera un timeout, en particular en operaciones como la autocompleción bash, o al escribir un archivo saliendo de un editor como vi.

Hay que explorar.... ¿Proxmox? ¿IPv6?


Peticiones relacionadas

relacionada con Plataforma de servidores - Tareas #5674: firewall en carlevaro Nueva 2017-05-13

Histórico

#1 Actualizado por Daniel Viñar Ulriksen hace más de 1 año

  • Añadido relacionada con Tareas #5674: firewall en carlevaro

#2 Actualizado por Daniel Viñar Ulriksen hace 3 meses

  • Estado cambiado Nueva por En curso
  • Asignado a cambiado Andrés Pías por Daniel Viñar Ulriksen

Retomo esta tarea, que es recurrente. Hubo un problema de resolución Iv6, que efectivamente provocaba buena parte de las lentitudes, pero ahora está resuelto, y parece no ser lo único. Creoamos un primer virtual para migrar Caldeyro, y Sebastián y Rafael nos reporta esto:

El 17/05/18 a las 21:58, Sebastián Sasías escribió:

como te comentaba la otra vez vemos que el servidor está demasiado lento. Se aprecian tiempos de respuesta mucho mas altos de lo normal, Rafael lo ha probado sin duda mucho mas que yo y ha realizado pruebas conmigo al lado comparando la respuesta con otros equipos (incluso viejos de sobremesa) y realmente las diferencias son demasiado notorias.

La muy ligera sospecha que hay es que el tema puede venir por el lado de la performance del disco, ya sean limitaciones de fábrica o por mal funcionamiento.

El 23/05/18 a las 11:10, Rafael E. Saa escribió:

Lo que Caldeyro hace para nosotros se basa fundamentalmente en el manejador de bases de datos, por lo que, ante la sospecha de que fuera un tema de disco, las pruebas que hice apuntan a eso.

Concretamente el tiempo de reconstruccion de una tabla de 100Mb le lleva 5 minutos, la misma acción en un core i3 con 4Gb de ram llevó 33 segundos (mismo DBMS, misma configuración, misma tabla ya que está replicada).

#3 Actualizado por Daniel Viñar Ulriksen hace 3 meses

Probamos ver dato de los discos:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.4.98-2-pve] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               HP
Product:              LOGICAL VOLUME
Revision:             3.52
User Capacity:        2.000.365.379.584 bytes [2,00 TB]
Logical block size:   512 bytes
Rotation Rate:        15000 rpm
Logical Unit id:      0x600508b1001c7c0346603dcfd5977320
Serial number:        PACCRID110104FD
Device type:          disk
Local Time is:        Fri Jun  8 14:20:43 2018 -03
SMART support is:     Unavailable - device lacks SMART capability.

=== START OF READ SMART DATA SECTION ===
Current Drive Temperature:     0 C
Drive Trip Temperature:        0 C

Error Counter logging not supported

Device does not support Self Test logging
root@sabato:~# smartctl -a /dev/sda
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.4.98-2-pve] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               HP
Product:              LOGICAL VOLUME
Revision:             3.52
User Capacity:        500.074.307.584 bytes [500 GB]
Logical block size:   512 bytes
Rotation Rate:        15000 rpm
Logical Unit id:      0x600508b1001c69f6fad2e88a27373cff
Serial number:        PACCRID110104FD
Device type:          disk
Local Time is:        Fri Jun  8 14:21:32 2018 -03
SMART support is:     Unavailable - device lacks SMART capability.

=== START OF READ SMART DATA SECTION ===
Current Drive Temperature:     0 C
Drive Trip Temperature:        0 C

Error Counter logging not supported

Device does not support Self Test logging

Y también:
root@sabato:~# badblocks -v /dev/sdb1
Revisando los bloques del 0 al 1953479503
Se están revisando los bloques dañados (prueba de sólo lectura): hecho
Paso terminado, se encontraron 0 bloques dañados. (0/0/0 errores)

#4 Actualizado por Daniel Viñar Ulriksen hace 3 meses

  • % Realizado cambiado 0 por 10

Se sugiere, también, empezar por un smartctl. No obstante, siendo discos virtuales tal cual mostrados por una controladora RAID, los discos físicos están detrás, y hay que poner comandos específicos a la controladora para que tire la info Así, por ejemplo, en Hipatia logramos ver:

root@hipatia:~# smartctl -d megaraid,17 -a /dev/sda
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST2000NM0023
Revision:             BC5B
Compliance:           SPC-4
User Capacity:        2.000.398.934.016 bytes [2,00 TB]
Logical block size:   512 bytes
Formatted with type 2 protection
LB provisioning type: unreported, LBPME=0, LBPRZ=0
Rotation Rate:        7200 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c5005737813b
Serial number:        Z1X0REWS0000C406FTQA
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Fri Jun 22 14:22:25 2018 -03
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     30 C
Drive Trip Temperature:        65 C

Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 37983,25
  number of minutes until next internal SMART test = 57

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   3601903479        0         0  3601903479          0     176887,456           0
write:         0        0         0         0          0     197911,426           0
verify: 4289531227        0         0  4289531227          0       8039,251           0

Non-medium error count:       16

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background short  Completed                   -    1171                 - [-   -    -]

Long (extended) Self Test duration: 18300 seconds [305,0 minutes]

#5 Actualizado por Daniel Viñar Ulriksen hace 3 meses

Pero en el HP, tenemos este controlador:

root@sabato:/etc/apt/sources.list.d# lspci | grep RAID
05:00.0 RAID bus controller: Hewlett-Packard Company Smart Array G6 controllers (rev 01)

que no es soportado por smartmontools. Necesitamos el utilitario privativo hpacucli, que se puede instalar en debian

Nos dio un error con la clave gpg, pero la pudimos importar así:

root@sabato:/etc/apt/sources.list.d# gpg  --recv-keys C208ADDE26C2B797
gpg: solicitando clave 26C2B797 de hkp servidor keys.gnupg.net
gpg: clave 26C2B797: clave pública "Hewlett Packard Enterprise Company RSA-2048-25 <signhp@hpe.com>" importada
gpg: Cantidad total procesada: 1
gpg:               importadas: 1  (RSA: 1)

#6 Actualizado por Daniel Viñar Ulriksen hace 3 meses

Ese repo propone otros paquetes que los mencionados, y aparentemente el hpacucli ya no existe realmente:

root@sabato:~# aptitude search "?origin(HPE)" 
p   amsd                                                                      - Agentless Management Service for servers with iLO5                                  
C   hp-ams                                                                    - Agentless Management Service for HP ProLiant servers with iLO4                      
i   hp-health                                                                 - hp System Health Application and Command line Utility Package                       
p   hp-smh-templates                                                          - HP System Management Homepage Templates                                             
p   hp-snmp-agents                                                            - Insight Management SNMP Agents for HP ProLiant Systems                              
i   hponcfg                                                                   - RILOE II/iLo online configuration utility                                           
i   hpsmh                                                                     - HP System Management Homepage                                                       
p   ssa                                                                       - Smart Storage Administration Utility                                                
p   ssacli                                                                    - Command Line Smart Storage Administration Utility                                   
i   ssaducli                                                                  - Array Smart Storage Administration Diagnostics Utility CLI      

logramos un reporte con:
root@sabato:~# ssaducli -f reporte.zip -v

Pero no vemos nada muy extraño en los reportes...

#7 Actualizado por Daniel Viñar Ulriksen hace 3 meses

Volvamos a las medidas de performance, Proxmox ofrece una herramienta sintética de benchmark de performance, pveperf:

root@sabato:~# pveperf
CPU BOGOMIPS: 31983.32
REGEX/SECOND: 840341
HD SIZE: 94.37 GB (/dev/dm-0)
BUFFERED READS: 89.84 MB/sec
AVERAGE SEEK TIME: 12.32 ms
FSYNCS/SECOND: 52.33
DNS EXT: 302.50 ms
DNS INT: 1.31 ms (csic.edu.uy)

A título de comparación (aunque no son dos plataformas comparables), en un servidor del CENUR Este con Proxmox:
root@chuy:~# pveperf
CPU BOGOMIPS: 190402.24
REGEX/SECOND: 1786396
HD SIZE: 93.99 GB (/dev/mapper/pve-root)
BUFFERED READS: 547.56 MB/sec
AVERAGE SEEK TIME: 4.76 ms
FSYNCS/SECOND: 4745.38
DNS EXT: 824.83 ms
DNS INT: 51.58 ms (cure.edu.uy)

Leyendo "la doc":, sobre el indicador FSYNCS/SECOND dice:

value should be greater than 200 (you should enable write back cache mode on you RAID controller - needs a battery backed cache (BBWC)).

En Sabato estamos muy por debajo. Conviene ir a verificar el setup del firmware del servidor.

#8 Actualizado por Daniel Viñar Ulriksen hace 3 meses

En el firmware del servidor (un HP proliant ML150 G6) no hay nada respecto al "write back" de la controladora de discos, y no se ve ninguna forma de actualizar el BIOS....
En un aprimera instancia, el BIOS indicó una mala configuración del array de discos, pero luego no se reprodujo.

Hay algunas otras referencias sobre problemas con el fsync/sec de pveperf pero no encontramos nada que se aplique acá...

Tiene un proxmox 4.4, cuyo soporte termina hoy. Convendría re-instalar el proxmox a una versión actual. OjO: el servidor sólo tiene un arranque BIOS, no UEFI.

Exportar a: Atom PDF