SSD y datos SMART

SMART significa Self-Monitoring, Analysis, and Reporting Technology, tecnología de autocomprobación, análisis e informes. Como su nombre indica, es una herramienta que registra los datos de estado de un disco duro (HDD) o una unidad de estado sólido (SSD). Los datos SMART pueden ser una herramienta valiosa, ya que proporcionan una advertencia temprana si un disco tiene problemas o ha llegado al final de su vida útil, lo que conlleva a la posibilidad de reemplazo antes de que se produzca un fallo.

Es importante informar fácilmente a un usuario o administrador del sistema porque la unidad en sí no es capaz de realizar un análisis en profundidad de los datos. La unidad solo puede informar si ciertos atributos han superado los umbrales predeterminados, y solo si los umbrales se han programado en el firmware.

SMART ha existido durante muchos años y es anterior al nacimiento de la SSD. SMART se implementó originalmente en HDD y se adaptó para SSD cuando esta nueva tecnología se inventó como un reemplazo directo para discos duros giratorios. Desafortunadamente, independientemente de la tecnología de almacenamiento, no existe un estándar en toda la industria que le indique qué atributo SMART numerado describe una propiedad física específica de una unidad. Los descriptores de atributos variarán entre SSD y HDD, e incluso entre los distintos proveedores de SSD.

Existen varias utilidades de terceros que pueden recuperar e informar los datos SMART de una unidad, a menudo disponibles en freeware y shareware. Sin embargo, a menos que el proveedor de software de terceros consulte con el proveedor de la unidad sobre los atributos SMART correctos, es probable que sus definiciones y umbrales (cuando corresponda) etiqueten erróneamente los atributos y puedan generar informes de fallas falsas positivas o falsas negativas.

Hemos visto ejemplos en los que el atributo “recuento de horas de encendido” informa de un número a la herramienta, una herramienta incompatible podría etiquetar mal ese número, como “error de recuento del programa” o “se han registrado errores incorregibles”. Peor aún, la utilidad de terceros puede tener umbrales de fallos que son inapropiados para el SSD en cuestión, por lo que la utilidad SMART informa de un fallo en un punto que el fabricante sabe que es una operación aceptable.

Debido a esta posible confusión, Crucial recomienda usar solo nuestro software Storage Executive como herramienta para recuperar y analizar con precisión los datos SMART en los SSD Crucial. Storage Executive siempre se programará con las descripciones y umbrales correctos de los atributos (cuando corresponda) para las versiones más antiguas de SSD Crucial.

Atributos SMART definidos Crucial descritos

Las unidades SSD Crucial registran varios atributos diferentes para su recuperación por Storage Executive. Algunos atributos informan de detalles críticos sobre el SSD, mientras que otros tan solo son informativos.

Aquí hablaremos de algunos de los más importantes, cuando el atributo tenga un nombre diferente para SATA y PCle, se presentarán ambos nombres:

Atributo 202: Porcentaje de por vida utilizado

Este atributo es exactamente como su nombre indica. Es una medida de cuánto se ha utilizado la vida útil proyectada de la unidad en cualquier momento. Cuando el SSD es completamente nuevo, el Atributo 202 registrará "0", y cuando se haya alcanzado su vida útil especificada, mostrará "100", detallando que se ha utilizado el 100 por ciento de la vida útil.

Sin embargo, es importante darse cuenta de lo que significa alcanzar el 100 por ciento de la vida útil proyectada; no significa que la unidad falle cuando ese contador pase al 101 por ciento, solo que es posible que deba reemplazar su SSD pronto.

La vida útil de un dispositivo NAND-flash está definida por otra característica: la retención de datos. La retención de datos es la cantidad de tiempo que el dispositivo puede almacenar de forma segura y permitir la recuperación exitosa de los datos del usuario en un estado sin alimentación. Cuando un SSD u otro dispositivo flash NAND es nuevo, su retención de datos sin energía será de varios años. Sin embargo, casi como la memoria humana, se acorta a medida que experimenta desgaste, al escribir datos (las lecturas de datos no causan desgaste directamente).

Joint Electron Device Engineering Council (JEDEC) es el grupo industrial que crea estándares y especificaciones para dispositivos y conjuntos basados en semiconductores. Micron es un miembro líder de JEDEC, que define la retención de datos de una manera específica: Para los SSD en aplicaciones de cliente (como ordenadores personales o de negocios), la retención de datos para un SSD será de un año, en estado sin alimentación, almacenada a 30 °C (86 °F). Esto debería ofrecer a la mayoría de los usuarios de ordenadores el suficiente tiempo para recuperar cualquier información de una unidad no utilizada después de un tiempo en el estante, si es necesario.

Es posible que pueda deducir de esta descripción que se puede esperar que el SSD funcione bastante bien ya que el contador de por vida aumenta desde el 100 por ciento. Sin embargo, a medida que pasa el tiempo, la retención de datos continuará disminuyendo, de un año a seis meses, a tres meses, y así sucesivamente. Finalmente, mucho más allá de la vida garantizada de la unidad, cualquier escritura nueva apenas se retendrá mientras se encuentre sin alimentación.

Sin embargo, el firmware SSD tiene esto en cuenta. A medida que la SSD continúa envejeciendo, el código de corrección de errores (ECC), los reintentos de lectura, los parámetros de lectura adaptativa, el mantenimiento de datos en segundo plano y otros ajustes en el firmware pueden corregir los problemas que surgen debido a la degradación gradual de la retención de datos. A medida que los bloques de datos NAND se degradan, pueden ser reemplazados por repuestos integrados y las operaciones normales pueden continuar. Por supuesto, todas estas operaciones en segundo plano tienen lugar cuando la alimentación está encendida, por lo que la retención de datos se define en un estado sin alimentación.

Atributo 5: Bloques NAND retirados

El número de bloques retirados a través de este proceso de evaluación continua de la calidad de los bloques NAND se rastrea en el atributo 5 de SMART. El firmware SSD eliminará los bloques NAND por varias razones, además del problema de desgaste y retención de datos descrito anteriormente. Una razón para la retirada es un fallo al borrar un bloque, al eliminar datos o al mover datos durante la recolección de basura. Este tipo de fallos causa un bajo riesgo para los datos del usuario ya que los datos en cuestión se están eliminando o ya se han copiado con éxito en una nueva ubicación en el SSD.

Atributo 180: Recuento de bloques reservados no utilizados (bloques de repuesto disponibles en SSD PCIe)

Nuevamente, como su nombre lo indica, este es el recuento de bloques adicionales disponibles para usar en caso de que los bloques defectuosos deban retirarse. Este número varía según la arquitectura NAND subyacente, la arquitectura del firmware y la capacidad del usuario de la unidad, pero generalmente comienza en miles.

Este número disminuye a medida que aumenta el número de bloques retirados. Cuando el atributo 180 llega a 0, el firmware colocará el SSD en modo de solo lectura. El SSD no se podrá utilizar como una unidad normal, pero el usuario debería poder recuperar los datos almacenados y transferirlos a un nuevo dispositivo. Se recomienda encarecidamente que si este número sea inferior a 100 o menos, la unidad se deba reemplazar.

Atributo 210: Recuento de páginas de recuperación exitosa de la matriz redundante de NAND independiente

La matriz redundante de NAND independiente (RAIN) es muy similar a obtener redundancia de datos utilizando RAID en una matriz de unidades. Sin embargo, la redundancia de la matriz redundante de NAND independiente se logra dentro de la unidad, de manera transparente para el usuario. La matriz redundante de NAND independiente es una característica que el SSD usa para proteger los datos del usuario y extender la vida útil del disco.

Los eventos de la matriz redundante de NAND independiente son poco frecuentes, por lo que si este recuento aumenta, es hora de examinar algunos de los atributos anteriores y ver si la unidad necesita ser reemplazada. Los eventos frecuentes de la matriz redundante de NAND independiente pueden causar una disminución notable en el rendimiento. El uso de redundancia de paridad para recuperar datos permite que continúen las operaciones normales del disco, pero consume algo de ancho de banda de E/S. Si las disminuciones de rendimiento son frecuentes, las reconstrucciones de la matriz redundante de NAND independiente podrían ser la razón y podrían ser motivo de preocupación.

Atributo 174: Recuento de pérdida de energía inesperada (recuento de paradas inseguras en SSD PCIe)

Una pérdida de energía normal en un sistema informático está precedida por un mensaje de la computadora host al SSD de que la energía está a punto de fallar. Esta advertencia le da tiempo al SSD para completar cualquier actividad en curso. Una vez completado, el SSD envía un mensaje de "confirmación" al host, y el host finaliza el apagado.

Hay muchas situaciones en las que la energía se cae inesperadamente, y esto puede crear problemas para el SSD. En casi todas las condiciones, el SSD puede compensar esto, aunque el próximo tiempo de arranque puede ser un poco más largo (unos segundos, en lugar de cientos de milisegundos), pero el sistema se iniciará nuevamente.

El atributo 174 suele ser solo informativo. Sin embargo, un gran número de tales eventos puede indicar que un usuario necesita capacitación sobre el apagado adecuado de los sistemas operativos, o que podría haber un problema con las fuentes de alimentación o las conexiones.

Atributo 194: Temperatura de la cubierta (temperatura del dispositivo en PCIe)

El software Crucial Storage Executive informará tanto la temperatura actual como la temperatura más alta de por vida, en grados Celsius, medida por un sensor en el SSD. El rango de funcionamiento especificado para la mayoría de los SSD Crucial es de 0 °C a 70 °C (o 32 °F a 158 °F). Cualquier temperatura registrada por encima de 70 °C podría anular la garantía del producto, por lo que la temperatura debe controlarse periódicamente. Si las temperaturas superan regularmente los 65 °C, se recomiendan medidas correctivas, como una mejor ventilación y ventiladores.

Algunas conclusiones finales

SMART puede ser una herramienta muy útil para monitorear el estado de su SSD. Sin embargo, SMART no es una herramienta de diagnóstico integral. La información obtenida de los atributos SMART junto con los diagnósticos del sistema operativo pueden proporcionar un buen punto de partida para las prácticas estándar de solución de problemas.

Los datos SMART que se registren o interpreten mal pueden dar lugar a conclusiones incorrectas que, lamentablemente, derivan al retorno de una unidad perfectamente funcional. Por lo tanto, vale la pena repetir que Crucial recomienda encarecidamente que solo se use el software Crucial Storage Executive para leer datos SMART de los SSD Crucial.

©2019 Micron Technology, Inc. Todos los derechos reservados. La información, los productos y las especificaciones están sujetos a cambios sin previo aviso. Ni Crucial ni Micron Technology, Inc. se responsabilizarán por las omisiones u errores que pueda haber en la tipografía o en las fotografías. Micron, el logotipo de Micron, Crucial y el logotipo de Crucial son marcas comerciales o marcas comerciales registradas de Micron Technology, Inc. PCI Express y PCIe son marcas comerciales registradas de PCI-SIG. Todas las demás marcas comerciales y marcas de servicio son propiedad de sus respectivos dueños.


Chat en directo
Chatear sin conexión