domingo, 5 de diciembre de 2010

Definición

Sumarización. 

La sumarización o agregación muestra los datos de una manera más resumida, permitiendo, precisamente, calcular valores agregados, que no son los datos directos registrados, sino datos derivados de ellos. Se puede considerar, en cierto modo, una generalización de los datos y, por tanto, suele facilitar el aprendizaje. Pero no es sólo una cuestión de eficiencia, sino, muchas veces, una necesidad. En la mayoría de eventos físicos, cuando más se detallan los datos menos patrones suelen encontrarse.
 Además, de la agregación aparecen nuevos atributos, que pueden ser mucho más significativos que los atributos más detallados. Por ejemplo, podemos tener los atributos típicos de los clientes (edad, estado civil, dirección...). En otras tablas podemos tener información sobre los productos que han comprado anteriormente y cuándo. Nos puede interesar generar nuevos atributos como por ejemplo "gasto medio por mes", "número de productos comprados por año", etc. Estos atributos son, en realidad, nuevos atributos por agregación y sumarización.
La sumarización se puede utilizar no sólo para construir la vista minable directamente, sino para realizar un análisis exploratorio, similar, en cierto modo, a las gráficas del punto anterior. Una aplicación muy práctica de la sumarización es la comparación o discriminación de clases. Consiste en sumarizar para dos o más clases, es decir agrupar, y ver las características para las submuestras formadas. Las clases pueden ser las que finalmente van a servir para una tarea de clasificación o puede ser cualquier atributo nominal (o numérico separado por intervalos) elegido para realizar el "contraste".

Niveles.
Un nivel representa un nivel particular de agregación dentro de una dimensión; cada nivel sobre el nivel base representa la sumarización total de los datos desde el nivel inferior. Para un mejor entendimiento, veamos el siguiente ejemplo: consideremos una dimensión Tiempo con tres niveles: Mes, Semestre, Año. El nivel Mes representa el nivel base, el nivel Semestre representa la sumarización de los totales por Mes y el nivel A ño representa la sumarización de los totales para los Semestres.Agregar niveles de sumarización otorga flexibilidad adicional a usuarios finales de aplicaciones EIS/ DSS para analizar los datos.
Jerarquías.
A nivel de dimensiones es posible definir jerarquías, las cuales son grupos de atributos que siguen un orden preestablecido.
Una jerarquía implica una organización de niveles dentro de una dimensión, con cada nivel representando el total agregado de los datos del nivel inferior. Las jerarquías definen cómo los datos son sumarizados desde los niveles más bajos hacia los más altos. Una dimensión típica soporta una o más jerarquías naturales. Una jerarquía puede pero no exige contener todos los valores existentes en la dimensión.
Se debe evitar caer en la tentación de convertir en tablas dimensionales separadas cada una de las relaciones muchos-a-uno presentes en las jerarquías. Esta descomposición es irrelevante en el planeamiento del espacio ocupado en disco y s ólo dificulta el entendimiento de la estructura para el usuario final, además de destruir el desempeño del browsing.


No hay comentarios:

Publicar un comentario