Tecnologías de Almacenamiento en Centro de
Datos
Salazar, Luis Diego
Universidad Latina de Costa Rica
Recibido 4/ago/2018
Aprobado 24/oct/2018
Resumen
La cantidad de
información digital que es albergada en sistemas de almacenamiento en centros
de datos va en crecimiento a un ritmo muy acelerado. Dichos sistemas de
almacenamiento pueden llegar a hospedar una cantidad finita de datos, pero
nuevos datos son creados día a día y el único límite se encuentra en los
dispositivos donde son hospedados físicamente. El siguiente artículo introduce
las tecnologías y funcionalidades en sistemas de almacenamiento en centros de
datos para aprovechar este recurso al máximo con el objetivo de cumplir con la
necesidad mundial de almacenar toda información que es creada bajo demanda a un
costo accesible. La conclusión más importante a la que se llega es que los
sistemas de almacenamiento ya no son una caja con discos duros, tienen
características avanzadas para sacar el mayor provecho a la inversión, así como
continuidad e integridad de la información.
Abstract
The amount of digital information kept on storage
system located on data centers are growing in accelerated paced. These storage
systems can retain a finite amount of data. But new data are created day by day
and the only limit reside on the physical storage device where are located the
data. This article introduces some technologies and features on storage systems
that can maximize this resource with the objective to store all data on demand
created for an accessible price. The main and most important conclusion is to
remark that storage systems are not only a box with hard drives, they are a
completed and integrated systems with advanced features that can maximize all
the invest, also allow continuity and integrity of data.
Palabras Claves — Sistemas de
Almacenamiento, Información Digital, Crecimiento data, Centros de Datos.
Keywords — Storage System, Digital Information,
Growing data, Data Center.
I. INTRODUCCIÓN
Desde el uso masivo del
internet a nivel mundial, han pasado más de dos décadas, casi ninguna persona
al final del último siglo se imaginaba el impacto a nivel global y cómo la
humanidad se apoyaría en esta tecnología, pero para que el internet funcione la
información tiene que estar alojada en algún lugar. ¡Es ahí entra en
funcionamiento los sistemas de almacenamiento!
Los datos digitales se miden
en Bytes y para ilustrar la idea, en la siguiente figura se muestra una
visualización de la cantidad de bytes que conforman un Zettabyte (ZB).
Figura
1. A ZETTABYTE SIZE IN NUMBERS! 2018 Recuperado de:
https://image.slidesharecdn.com/must-150404090138-conversion-gate01/95/big-data-analytics-in-markeing-8-638.jpg?cb=1428138172
Se puede definir un sistema de
almacenamiento como un dispositivo físico donde se encuentran distintos
elementos que almacenan u brindan la información digital de manera segura.
Toda la información contenida
en internet que actualmente es manejada en Zettabyte, es guardada en unidades
de almacenamiento en distintos medios tales como discos duros, unidades de
cinta o memorias no volátiles, por mencionar algunos ejemplos. Ahora bien, el
problema radica en que estos medios o recursos solo pueden contener una
cantidad finita de bytes. Al pasar los años, dichos dispositivos de
almacenamiento alojados en centros de datos han crecido de manera vertiginosa
en la cantidad de información que pueden albergar, pero no es suficiente. Se
ocupan de mecanismos y funcionalidades adicionales para aprovechar al máximo
este recurso tan valioso.
Según el estudio de Reinsel, D.,
Gantz, J., y Rydning, J. (2017) Date Age 2025: The Evolution of Data to
Life-Critical, el total de la información digital proyectado para el 2018 es de
30 ZB y se estima que para el 2025 el total alcanzará los 163 ZB.
En este artículo se muestran
los diferentes tipos de sistemas de almacenamiento en centros de datos y
presentará algunas de las características avanzadas y sus mecanismos para
aprovechar cada byte de espacio para hospedar toda la información digital que
es producida anualmente de manera segura.
II. TIPOS SISTEMAS DE ALMACENAMIENTO
Todos
los sistemas de almacenamiento para centros de datos son diseñados para cumplir
con un tamaño estándar y ser colocado en un gabinete. Usualmente se manejan
capacidades entre 5 TB hasta 6 PB, de igual manera cuentan con total
redundancia en fuentes de poder, ventiladores, discos duros, controladoras,
puertos de comunicación y cableado.
Figura
2. Storage marca 3PAR vista frontal y trasera 2016 Recuperado de:
https://hpe.kx.com.tw/file/repository/a00004511enw_omq99_7yi1ipz.pdf
Almacenar datos a nivel de
bloque en el dispositivo significa que al guardar cualquier dato, este se
guardará en pequeñas piezas de un tamaño fijo por ejemplo 1024 bytes. La misma
tampoco contará con metadata, formato o dueño. La ventaja de almacenar los
datos en bloque es el transporte de estos datos que comúnmente es a nivel de
una red especializada llamada Storage
Area Network (SAN) que es mucho más eficiente y rápida. Igualmente, cada
bloque puede verse como una unidad de almacenamiento de disco llamada LUN hacia
el host y puede ser vista por el sistema operativo en el tipo de archivos que
desee formatearlo. Este tipo de almacenamiento es recomendable para almacenar
Bases de Datos por su alto rendimiento y alta disponibilidad, como para ser
usado en sistemas de archivo de máquinas virtuales, debido a que soporta arranque
desde el almacenamiento.
Contrariamente
al almacenamiento por bloques donde un dato se descompone en una cantidad fija
de bytes que son guardados en el dispositivo, en este tipo, los datos son
almacenados en forma de ficheros y de manera estructurada; por ejemplo, una
carpeta que contiene una dirección raíz y a su vez contiene subcarpetas y en
ella archivos. Este tipo de almacenamiento comúnmente llamado Network Attached Storage (NAS) y los
archivos pueden ser vistos a través de protocolos como NFS o FTP en el host. La
ventaja de usar almacenamiento por archivos es que es sencillo y rápido de
implementar. Además, su costo es menor al que se puede usar la red LAN como
medio de transporte.
Este
tipo de almacenamiento es el más nuevo debido a las tendencias tecnológicas
como Big Data y Cloud. Es usado para almacenar datos no estructurados como
imágenes, videos, audios, textos; en el cual los datos y contenido no pueden
ser estructuradas en tablas como en una base de datos. Su principal ventaja es
que es muy flexible y escalable, no tiene un número límite para almacenamiento
de objetos, igualmente se pueden alojar objetos mayores a 5 TB.
En
este tipo de almacenamiento se puede combinar todas las anteriores en un solo
dispositivo consolidado. Entonces dependiendo de la necesidad del negocio se
utiliza el tipo de almacenamiento más óptimo y eficiente.
Figura
3. Tipos de Almacenamiento. 2018 Recuperado de:
https://blog.ubuntu.com/2015/05/18/what-are-the-different-types-of-storage-block-object-and-file
III.
CARACTERÍSTICAS AVANZADAS
La
información contenida en un sistema de almacenamiento es invaluable para el
dueño, pues un solo documento de unos pocos bytes puede representar cientos de
horas de trabajo. Incluso los documentos pueden clasificarse y mantenerse en
sitios altamente confidenciales. Es por eso que estos dispositivos tienen que
contar con elementos que no permitan perder información y contar con la
seguridad apropiada para que solo los usuarios autorizados puedan manipularla.
Así mismo tienen que manejar mecanismos que puedan optimizar el espacio y la
eficiencia energética sin perder rendimiento o velocidad.
Un
dispositivo de almacenamiento puede ser replicado parcial o totalmente sin
importar la distancia física entre ellos. Pero hay que planear de la mejor
forma y tomar en cuenta, cual debe ser su mejor ubicación, con el fin de evitar
el desabastecimiento de energía, en caso de algún tipo de desastre natural o
provocado, como es el caso de los incendios. Después de los atentados a las
torres gemelas en el año 2001, se ha tomado mucha importancia a esta
tecnología, en ese trágico evento donde se perdieron cientos de vidas, también
se perdió información digital con valores superiores a los millones de dólares.
La razón principal fue porque las empresas tenían su replicación del centro de
datos en la torre contigua y viceversa. Por lo tanto, al caer las dos torres,
la Información se perdió. En la siguiente figura se puede observar la mejor
práctica para implementar un proceso de replicación. Entre el sitio A y B se
puede tener una replicación en tiempo real con una distancia menor a 50
Kilómetros. Por otra parte, existe una replicación entre el sitio A y C
simultáneamente, que puede tener una distancia de miles de kilómetros entre sí,
que, aunque no es a tiempo real por las velocidades de conexión, representa un
punto a favor en caso de que haya un desastre entre los sitios A y B que pueda
tener mayor probabilidad de que suceda debido a la cercanía entre ellos, se
podría pensar el caso de un terremoto o huracán donde muchas estructuras se ven
comprometidas al existir distancias mayores.
Figura
4. Mejores Prácticas Replicación 2018 Recuperado de: http://support.huawei.com/enterprise/product/images/31f3969a83314c8688e7ad00cf08c607
Este
es un mecanismo que utiliza el sistema de almacenamiento para optimizar el
aprovisionamiento del espacio al usuario. En la antigua manera si un usuario
ocupaba 1 TB de espacio, ese era la cantidad de que se reservaba y brindaba de
manera íntegra, aunque nunca llegara a necesitarlo. Ahora con volúmenes
delgados si el mismo usuario le solicita 1 TB, si verá que le están
suministrando ese espacio, pero en el equipo de almacenamiento solo se verá
consumido el espacio real utilizado y crecerá bajo demanda hasta alcanzar el TB
de espacio que originalmente se le brindó. Se podrán imaginar cuanto espacio es
ahorrado en el almacenamiento cuando son provisionados miles de volúmenes que
van creciendo bajo demanda. Permite usar de la manera más eficiente el espacio
y ahorrar dinero en recursos que no se está utilizando.
Figura 5.
Aprovechamiento del Espacio 2018 Recuperado de:
https://image.slidesharecdn.com/theskinnyonthinprovisioninginvirtualenvironments-140805100811-phpapp02/95/the-skinny-on-thin-provisioning-in-virtual-environments-4-638.jpg?cb=1428575476
Con
esta tecnología podemos salvaguardar el espacio y ahorrar recursos al máximo,
el sistema de almacenamiento realiza un barrido de la información almacenada y
busca redundancias en las secuencias de bytes, esto con el fin de solo
almacenar una copia y borrar el resto haciendo una referencia a la primera.
En
la siguiente figura se visualiza a alto nivel lo que esta tecnología realiza.
Se puede imaginar una empresa que envía un correo a toda la organización, en la
manera tradicional, cada copia de correo es almacenada por cada usuario,
entonces un correo electrónico que pesa 1MB para el sistema de almacenamiento
puede convertirse en 1GB muy rápido. Con Dedupliación solo se almacena una
copia y el resto queda solo como una referencia. Y eso es solo un correo
electrónico, se puede figurar la cantidad de información repetida (fotos,
audios, textos, entre otros) que solo genera pérdida de espacio.
Figura 6.
Información después de Deduplicar 2018 Recuperado de: https://grumpy.tech/content/images/2017/11/image.jpg
Este elemento cobra más importancia al pasar los
años, generalmente un sistema de almacenamiento es usado entre 5 y 10 años por
una compañía y cuando deja de ser utilizado se desecha o reutiliza. Pero los
datos almacenados son importantes y no basta con formatear las unidades
provisionadas. Esta característica permite destruir los datos en un disco duro
y no existe la posibilidad de recuperar la Información. Para ello se
sobrescriben los datos haciendo un barrido bit por bit del disco duro durante
múltiples secuencias de escritura. Es usado de manera frecuente en compañías
financieras y de gobierno.
En
un sistema de almacenamiento en donde se pueden mezclar diferentes medios
físicos que almacenan los datos, estos medios difieren en la capacidad de
almacenamiento, velocidad y ancho de banda. Los tres más comunes son:
·
Nivel
1: SSD
·
Nivel
2: SAS
·
Nivel
3: NL-SAS
El
almacenamiento de Nivel 1 se realiza en discos de estado sólido (SSD)
proporciona un almacenamiento dedicado a suplir necesidades prioritarias de
lectura y escritura, por ejemplo, una base de datos. Los discos duros SAS
brindan un punto intermedio entre precio y rendimiento, son usados en ambientes
donde lo almacenado es importante y accesado con frecuencia, como un sistema
operativo. Por último, en nivel 3, los discos NL-SAS son los que presentan
menor rendimiento, pero son más baratos y presentan una gran densidad de
espacio, se suelen usar para almacenar respaldos.
En
la siguiente figura se muestra la mejor práctica para poblar un sistema de
almacenamiento con respecto a su almacenamiento. Se observa que tan solo un 3%
se debe dedicar a SSD, ya que solo se utiliza en información que tiene que ser
accesada de manera instantánea. Por el contrario, la mayoría de espacio se
espera que se encuentre en discos NL-SAS debido a que no son accesados de
manera frecuente y es mucha data.
Figura 7. Niveles de Almacenamiento 2016.
Recuperado de:
https://www.acnc.com/media/images/site_library/1061_ART_-_Tiered_Storage.png
El
Auto Nivelamiento es una característica avanzada de un sistema de
almacenamiento que permite mover esta información de manera inteligente entre
los niveles, esto produce que el dispositivo funcione siempre a su mejor
rendimiento entonces sin tener que hacer una gran inversión económica. Esta
tecnología escanea toda la información guardada y la comparara con la
frecuencia de uso, horas del día donde es más accesada y tipo de información.
Cuando el sistema mapea esta información y el dispositivo es menos usado, mueve
la información entre las unidades de almacenamiento sin ninguna afectación.
Como
se observa en la siguiente figura, después del proceso de Auto Nivelamiento la
información que es almacenada y es usada con más frecuencia, se guarda en
discos SSD o también llamados Flash, por el contrario, los de menor uso se
guardan en disco NL-SAS. Esto permite tener un balance entre rendimiento y
costo.
Figura 8. Antes y Después de Auto
Nivelamiento 2018 Recuperado de:
https://www.qnap.com/solution/qtier-auto-tiering/_images/Qtire-12G-SAS.png
IV. CONCLUSIÓN
·
Hay
4 tipos de sistema de almacenamiento y dependiendo de la información que se
quiera o considere necesario guardar, se elige el más adecuado.
·
La
replicación permite un aseguramiento de la información en caso de un evento de
recuperación de desastres. Por ello se sugiere usar la técnica de replicar en
dos sitios alternos a diferentes distancias.
·
Al
utilizar las características de Volúmenes delgados junto con Deduplicación y
Auto Nivelamiento se obtiene un aprovechamiento de espacio muy superior al que
se ha venido usando tradicionalmente tradicional sin que se afecte el
rendimiento o sea necesario realizar inversiones económicas.
·
Es
importante para la protección de la información, que cuando la misma ya no se
utilice o se vuelva obsoleta, se realice el mecanismo de destrucción segura de
los datos.
REFERENCIAS
File vs.
Block vs. Object Storage. (2018).
Recuperado de SNIA:
https://www.snia.org/sites/default/files/ESF/SNIA-Block-File-Object-Storage-Webcast-Final.pdf
Dedupliación de Datos. (2018). Recuperado de
DELL EMC: https://mexico.emc.com/corporate/glossary/data-deduplication.htm
Data Age 2025: The Evolution of Data to Life-Critical.
(2017). Recuperado de Storagenewsletter.:
https://www.storagenewsletter.com/2017/04/05/total-ww-data-to-reach-163-zettabytes-by-2025-idc/
Automatic Storage Tiering. (2018). Recuperado de Gartner:
https://www.gartner.com/it-glossary/automatic-storage-tiering-auto-tiering