Splunk es una potente plataforma que permite a las organizaciones recopilar, analizar y visualizar datos provenientes de múltiples fuentes. Su capacidad para manejar grandes volúmenes de datos brinda un enorme potencial, pero sin una gestión eficiente, puede afectar al rendimiento general del sistema y limitar la capacidad de extraer el máximo valor de la información.
La optimización de la gestión de datos en arquitecturas Big Data, considerando aspectos como Eventos por Segundo (EPS) o el Volumen Total Indexado, es fundamental para asegurar un rendimiento óptimo y garantizar que los recursos se utilicen de manera eficiente.
En este artículo, te ofrecemos estrategias clave para gestionar de manera eficiente el volumen de datos en Splunk, permitiendo maximizar el retorno de inversión (ROI) y mejorar el rendimiento de tu infraestructura.
-
Filtrado de eventos
El filtrado de eventos implica la eliminación de datos no esenciales antes de que lleguen a Splunk y es una de las formas más efectivas de reducir el volumen de datos. Esta técnica asegura que solo los datos relevantes sean indexados, pero para ello debemos seguir los siguientes pasos:
- Analizar y planificar previamente el uso que se va a dar a los datos y qué casos de uso se van a implementar. En muchas ocasiones se configura la ingesta de multitud de fuentes de datos pensando que en un futuro ya se explotarán, pero la realidad es que ese momento puede tardar en llegar y la ocupación cada vez es mayor.
- Una vez conozcamos exactamente qué uso daremos a los datos, podremos identificar todos aquellos eventos que no son necesarios para nuestro caso de uso, y por lo tanto susceptibles de ser descartados en origen mediante la configuración del propio sistema que los genera, o mediante reglas y filtros específicos en los forwarders.
-
Reducción del contenido de los eventos
Esta técnica se centra en la eliminación de campos redundantes o irrelevantes de los eventos. Normalmente los logs suelen tener un nivel de verbosidad bastante elevado incluyendo metadatos repetitivos y detalles que no aportan valor significativo con respecto al uso que se les va a dar. Para ello, podríamos considerar lo siguiente:
Configurar el nivel de verbosidad en el sistema origen con el fin de obtener exactamente el nivel de detalle que se necesita para los casos de uso a implementar.
En ocasiones este nivel de detalle no es configurable, por lo tanto, el descarte de campos se basaría en una implementación más a medida, pudiendo identificar opciones como:
- Hacer un preprocesado previo en los forwarders para transformar el evento original de forma que sólo se indexe lo necesario.
- Uso de herramientas específicas en el pipeline de datos. Herramientas como Vector, Logstash, Onum o Cribl son muy útiles para procesar eventos antes de enviarlos a cualquier sistema, ya que permiten filtrar, transformar y enriquecer los datos de forma muy eficiente, evitando cuellos de botella y delays en la indexación de datos.
-
Definición de arquitecturas optimizadas
En Splunk, los datos pueden almacenarse en diferentes ubicaciones basándose en la antigüedad y frecuencia de acceso. Por ejemplo, los datos hot y warm son los más recientes y normalmente son los más usados, mientras que los datos cold suelen tener una mayor longevidad y por lo tanto el acceso a estos normalmente es menos frecuente.
Para optimizar el rendimiento y los costes de la infraestructura de almacenamiento, es recomendable definir arquitecturas en las que se separe los datos hot/warm y cold en diferentes volúmenes de almacenamiento.
Los datos hot/warm debido a la frecuencia con la que se espera ser consultados deberían residir en unidades de almacenamiento de alto rendimiento como discos SSD, mientras que los datos cold pueden almacenarse en unidades de almacenamiento cuyo rendimiento es menor, y en situaciones en las que es asumible esa pérdida de velocidad a la hora de consultarlos.
Podríamos incluso considerar aquellos escenarios en los que los datos no se necesitan para realizar un análisis en tiempo real, pero que por normativa legal o compliance podrían llegar a ser necesarios en el futuro. En estos casos es recomendable considerar almacenamientos del tipo Object Storage Classes como Amazon S3 o Azure Blob.
Para ello se pueden implantar arquitecturas del tipo Splunk SmartStore, concebidas para proporcionar una solución en la que se desacopla la computación y el almacenamiento a nivel de indexación para permitir arquitecturas más elásticas.
Ventajas de la optimización de datos
La cantidad de volumen que se puede reducir al descartar y optimizar los eventos a indexar depende en gran medida de la naturaleza de los datos y los casos de uso que van a desarrollar. Sin embargo, su impacto afectará directamente en el gobierno de datos:
- Ahorro de almacenamiento: Una indexación excesiva podría generar mayores requisitos de almacenamiento y complejidad de administración, lo que afectaría negativamente al rendimiento de la plataforma. Por lo tanto, una indexación eficiente puede ayudar a reducir los requisitos de almacenamiento, lo que a su vez puede llevar a la reducción de costes.
- Reducción de la carga en el sistema: Al reducir la carga en la arquitectura de datos, puedes mejorar el rendimiento de las consultas reduciendo los tiempos de respuesta y, por tanto, la experiencia de usuario. Esto puede resultar en un ahorro de costes a largo plazo al utilizar posiblemente un menor número de servidores o máquinas con recursos sensiblemente inferiores.
- Gestión de datos eficiente: La reducción efectiva del volumen de datos ayuda a que la gestión de éstos sea más manejable, facilitando tareas como backups, y recuperación ante desastres.
Así, la gestión eficiente de EPS y volumen de ingestas en arquitecturas de datos es esencial para maximizar el rendimiento y asegurar que los recursos se utilicen de manera óptima. Esto requiere una planificación cuidadosa en la integración de nuevas fuentes de datos y la implementación de estrategias adecuadas según las necesidades específicas de cada organización.
En Innovery, somos partners Elite de Splunk y especialistas en soluciones que potencian al máximo los datos de nuestros clientes. Si quieres más información sobre cómo aplicar este tipo de soluciones en tu organización, ¡no dudes en ponerte en contacto con nosotros!
Autor: Iván Fernández de la Rosa, Team Leader de Data Into Value de Innovery Spain