SSD y datos SMART

SMART significa Self-Monitoring, Analysis, and Reporting Technology (tecnología de autocomprobación, análisis e informes). Como su nombre indica, es una herramienta que registra los datos de estado de un disco duro (HDD) o una unidad de estado sólido (SSD). Los datos SMART pueden ser una herramienta valiosa, ya que advierten con antelación cuando un disco tiene problemas o ha llegado al final de su vida útil, lo que lleva a contemplar la posibilidad de sustituirlo antes de que se produzca un fallo.

Es importante informar de forma sencilla a los usuarios o administradores de sistemas, ya que la unidad en sí no es capaz de realizar un análisis en profundidad de los datos. La unidad solo puede informar si ciertos atributos han superado los umbrales predeterminados, y únicamente si estos umbrales se han programado en el firmware.

SMART existe desde hace muchos años y es anterior a la aparición de las SSD. SMART se implementó originalmente en los HDD y se adaptó para SSD cuando esta nueva tecnología se inventó como sustituta directa de los discos duros giratorios. Por desgracia, sea cual sea la tecnología de almacenamiento, no existe un estándar en toda la industria capaz de indicar qué atributo SMART numerado describe una propiedad física específica de una unidad. Los descriptores de atributos variarán entre SSD y HDD, e incluso entre los distintos proveedores de SSD.

Existen varias utilidades de terceros que pueden recuperar e informar los datos SMART de una unidad, a menudo disponibles como freeware y shareware. Sin embargo, a menos que el proveedor de software de terceros consulte con el proveedor de la unidad sobre los atributos SMART correctos, es probable que sus definiciones y umbrales (cuando corresponda) etiqueten erróneamente los atributos y puedan generar informes de fallas falsas positivas o falsas negativas.

Hemos visto ejemplos en los que el atributo “recuento de horas de encendido” informa de un número a la herramienta que, si es incompatible, podría etiquetar mal dicho número, como “error de recuento del programa” o “errores incorregibles detectados”. Peor aún, la utilidad de terceros puede tener umbrales de fallos que son inapropiados para la SSD en cuestión, por lo que la utilidad SMART informa de un fallo en un punto que el fabricante sabe que es una operación aceptable.

Debido a esta posible confusión, Crucial recomienda usar solo nuestro software Storage Executive como herramienta para recuperar y analizar con precisión los datos SMART en las SSD Crucial. Storage Executive siempre se programa con las descripciones y umbrales correctos de los atributos (cuando corresponda) para todas las unidades SSD Crucial excepto las más antiguas.

Atributos SMART definidos Crucial descritos

Las unidades SSD Crucial registran varios atributos diferentes para que Storage Executive las recupere. Algunos atributos informan de detalles críticos sobre la SSD, mientras que otros tan solo son informativos.

Aquí hablaremos de algunos de los más importantes; cuando el atributo tenga un nombre diferente para SATA y PCle, se indicarán ambos nombres:

Atributo 202: Porcentaje de vida útil restante (porcentaje de vida útil utilizado en PCIe)

Este atributo es exactamente como su nombre indica. Es una medida de la vida útil prevista de una unidad en un momento dado. Cuando la SSD es completamente nueva, el atributo 202 indicará “100”, y cuando se haya alcanzado el fin de la vida útil especificada, indicará “0”, notificando que queda un 0 % de vida útil.

Sin embargo, es importante ser consciente de lo que significa alcanzar el 100 % de la vida útil prevista: no significa que la unidad falle cuando ese contador alcance el cero, sino simplemente que puede ser necesario sustituir pronto la SSD.

La vida útil de un dispositivo NAND-flash está definida mediante otra característica: la retención de datos. La retención de datos es la cantidad de tiempo que el dispositivo puede almacenar de forma segura y permitir la recuperación correcta de los datos del usuario en un estado sin alimentación. Cuando una SSD u otro dispositivo flash NAND son nuevos, la retención de datos sin energía equivale a varios años. Sin embargo, casi como la memoria humana, se acorta a medida que experimenta desgaste al escribir datos (las lecturas de datos no causan desgaste directamente).

Joint Electron Device Engineering Council (JEDEC) es el grupo industrial que crea estándares y especificaciones para dispositivos y conjuntos basados en semiconductores. Micron es un miembro destacado de JEDEC, que define la retención de datos de una manera específica: Para las SSD en aplicaciones de cliente (como ordenadores personales o de negocios), la retención de datos para una SSD será de un año, en estado sin alimentación, almacenada a 30 °C (86 °F). Esto debería ofrecer a la mayoría de los usuarios de ordenadores el suficiente tiempo para recuperar cualquier información de una unidad que lleve una temporada sin utilizarse, si es necesario.

Tal vez haya deducido a partir de esta explicación que es previsible que la SSD funcione bastante bien mientras el contador de vida útil esté contando por debajo del 100 %. Sin embargo, a medida que pasa el tiempo, la retención de datos continuará disminuyendo, de un año a seis meses, a tres meses, y así sucesivamente. Llegará un momento en el que, mucho después de haber superado la vida garantizada de la unidad, cualquier escritura nueva apenas se retendrá mientras se encuentre sin alimentación.

Sin embargo, el firmware SSD tiene esto en cuenta. A medida que la SSD continúa envejeciendo, el código de corrección de errores (ECC), los reintentos de lectura, los parámetros de lectura adaptativa, el mantenimiento de datos en segundo plano y otros ajustes en el firmware pueden corregir los problemas que surgen debido a la degradación gradual de la retención de datos. A medida que los bloques de datos NAND se degradan, pueden ser reemplazados por repuestos integrados y se puede seguir trabajando con la unidad con toda normalidad. Por supuesto, todas estas operaciones en segundo plano tienen lugar cuando la alimentación está encendida, por lo que la retención de datos se define en un estado sin alimentación.

Este atributo se presenta también como "Porcentaje de vida útil utilizado" en algunas SSD Crucial antiguas, así como en modelos NVMe, y funciona de forma similar a la vida útil restante, solo que a la inversa. El atributo 202 de la nueva SDD indicará “0”, y cuando se haya alcanzado el fin de la vida útil especificada, mostrará “100”, informando que se ha utilizado el 100 % de la vida útil. En estos modelos, el porcentaje puede superar el valor 100 a medida que se realizan más operaciones de escritura, pero los problemas de retención de datos son los mismos.

Atributo 5: Bloques NAND retirados

El número de bloques retirados a través de este proceso de evaluación continua de la calidad de los bloques NAND se rastrea en el atributo 5 de SMART. El firmware SSD eliminará los bloques NAND por varias razones, además del problema de desgaste y retención de datos descrito anteriormente. Una razón para retirar bloques son los fallos al borrarlos, al eliminar datos o al mover datos durante la recolección de basura. Este tipo de fallos conlleva un riesgo bajo para los datos del usuario, ya que los datos en cuestión se están eliminando o ya se han copiado correctamente en una nueva ubicación en la SSD.

Las SSD Crucial más recientes miden superbloques mediante este atributo, que son grupos de varios bloques individuales. Cuando el atributo 5 se encarga de medir esto, el total de bloques no aumenta hasta que se retiran varios bloques individuales.

Atributo 180: Recuento de bloques reservados no utilizados (bloques de repuesto disponibles en SSD PCIe)

De nuevo, como su nombre indica, este es el recuento de bloques adicionales disponibles para usar en caso de que se deban retirar los defectuosos. Este número varía según la arquitectura NAND subyacente, la arquitectura del firmware y la capacidad de la unidad que puede aprovechar el usuario, si bien suele ser a partir de varios miles.

Este número disminuye a medida que aumenta el número de bloques retirados. Cuando el atributo 180 llega a 0, el firmware colocará la SSD en modo de solo lectura. La SSD no se podrá utilizar como una unidad normal, pero el usuario debería poder recuperar los datos almacenados y transferirlos a un nuevo dispositivo.

Al igual que sucede con el atributo 5, las SSD Crucial más recientes también miden superbloques mediante este atributo, por lo que este total de bloques no disminuye hasta que se retiran varios bloques individuales, y pueden reflejar un valor mucho menor cuando se acaban de comprar respecto a una unidad que ya tenga unos años.

Atributo 210: Recuento de páginas de recuperación correcta de la matriz redundante de NAND independiente

La matriz redundante de NAND independiente (RAIN) trabaja de una forma muy similar respecto a la obtención de redundancia de datos mediante RAID en una matriz de unidades. Sin embargo, la redundancia de la matriz redundante de NAND independiente se logra dentro de la unidad, de manera transparente para el usuario. La matriz redundante de NAND independiente es una característica que la SSD usa para proteger los datos del usuario y alargar la vida útil del disco.

Los eventos de la matriz redundante de NAND independiente son poco frecuentes, por lo que si este recuento aumenta, se deberán examinar algunos de los atributos anteriores y ver si es necesario sustituir la unidad. Los eventos frecuentes de la matriz redundante de NAND independiente pueden causar una disminución notable en el rendimiento. El uso de redundancia de paridad para recuperar datos permite que se pueda seguir operando el disco con normalidad, si bien consumirá algo de ancho de banda de E/S. Si las disminuciones de rendimiento son frecuentes, las reconstrucciones de la matriz redundante de NAND independiente podrían ser la razón y ser motivo de preocupación.

Atributo 174: Recuento de pérdida de alimentación inesperada (recuento de paradas inseguras en SSD PCIe)

Una pérdida de alimentación normal en un sistema informático está precedida por un mensaje del ordenador host a la SSD indicando que la alimentación está a punto de fallar. Esta advertencia le da tiempo a la SSD para completar cualquier actividad en curso. Una vez completada, la SSD envía un mensaje de "confirmación" al host y este finaliza el apagado.

Hay muchas situaciones en las que la alimentación se cae inesperadamente, lo que puede crear problemas para la SSD. En casi todas las condiciones, la SSD puede compensar esta situación, aunque el próximo tiempo de arranque puede ser un poco más largo (unos segundos, en lugar de cientos de milisegundos), pero el sistema se iniciará nuevamente.

El atributo 174 suele ser solo informativo. Sin embargo, un gran número de tales eventos puede indicar que un usuario necesita capacitación sobre el apagado adecuado de los sistemas operativos, o que podría haber un problema con las fuentes de alimentación o las conexiones.

Atributo 194: Temperatura de la cubierta (temperatura del dispositivo en PCIe)

El software Crucial Storage Executive informará tanto de la temperatura actual como de la temperatura más alta jamás alcanzada, en grados Celsius, medida gracias a un sensor en la SSD. El rango de funcionamiento especificado para la mayoría de las SSD Crucial es de 0 °C a 70 °C (32 °F a 158 °F). Cualquier temperatura registrada por encima de 70 °C podría anular la garantía del producto, por lo que la temperatura debe controlarse periódicamente. Si las temperaturas superan regularmente los 65 °C, se recomienda tomar medidas correctivas, como una mejor ventilación o la instalación de ventiladores.

Conclusiones finales

SMART puede ser una herramienta muy útil para controlar el estado de la SSD. Sin embargo, SMART no es una herramienta de diagnóstico integral. La información obtenida de los atributos SMART, junto con los diagnósticos del sistema operativo, pueden proporcionar un buen punto de partida para aplicar las prácticas estándar de solución de problemas.

Los datos SMART que se registren o interpreten mal pueden dar lugar a conclusiones incorrectas que, lamentablemente, pueden empujar a devolver una unidad que funciona perfectamente. Por lo tanto, vale la pena repetir que Crucial recomienda encarecidamente que se use únicamente el software Crucial Storage Executive para leer datos SMART de las SSD Crucial.

©2019 Micron Technology, Inc. Todos los derechos reservados. La información, las especificaciones y los productos están sujetos a cambios sin previo aviso. Ni Crucial ni Micron Technology, Inc. se responsabilizarán de las omisiones o errores que pueda haber en la tipografía o en las fotografías. Micron, el logotipo de Micron, Crucial y el logotipo de Crucial son marcas comerciales o marcas comerciales registradas de Micron Technology, Inc. PCI Express y PCIe son marcas comerciales registradas de PCI-SIG. Todas las demás marcas comerciales y marcas de servicio son propiedad de sus respectivos dueños.