UNIDAD2

Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el análisis de la información- en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.
Diferencias entre Base de Datos y Almacén de Datos
Base de Datos Operacional Almacén de Datos

Datos operacionales Datos del negocio para Información
Orientado a aplicación Orientado al sujeto
Actual Actual + Histórico
Detallada Detallada + Resumida
Cambia continuamente Estable
Data Warehousing
Data Warehousing es el proceso que facilita la creación y explotación de un Almacén de Datos. Los Sistemas de Data Warehousing incluyen funcionalidades como:
• Integración de bases de datos heterogéneas (relacionales, documentales, geográficas, archivos, etc.)
• Ejecución de consultas complejas no predefinidas visualizando el resultado en forma gráfica y en diferentes niveles de agrupamiento y totalización de datos.
• Agrupamiento y desagrupamiento de datos en forma interactiva.
• Análisis del problema en términos de dimensiones.
• Control de calidad de datos.





2.1.1 Características del Almacén de Datos
• Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.
• Integrado. Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.
• Dependiente del tiempo. Esta dependencia aparece de tres formas:
o La información representa los datos sobre un horizonte largo de tiempo.
o Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).
o La información, una vez registrada correctamente, no puede ser actualizada.
• No volátil. El Almacén de Datos sólo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.
2.1.2 Arquitectura Data Warehouse
La estructura básica de la arquitectura Data Warehouse incluye:
1. Datos operacionales. Origen de datos para el componente de almacenamiento físico del Almacén de Datos.
2. Extracción de datos. Selección sistemática de datos operacionales usados para formar parte del Almacén de Datos.
3. Transformación de datos. Procesos para sumarizar y realizar cambios en los datos operacionales.
4. Carga de datos. Inserción de datos en el Almacén.
5. Almacén. Almacenamiento físico de datos de al arquitectura Data Warehouse.
6. Herramienta de acceso. Herramientas que proveen acceso a los datos.
Estructura lógica del Almacén de Datos
La estructura lógica de un Almacén de Datos está compuesta por los siguientes niveles:
• Meta datos. Describen la estructura de los datos contenidos en el almacén.
o Están en una dimensión distinta al resto de niveles.
• Datos detallados actuales. Obtenidos directamente del procesado de los datos.
o Forman el nivel más bajo de detalle.
o Ocupan mucho espacio.
o Se almacenan en disco, para facilitar el acceso.
• Datos detallados históricos. Igual que los anteriores, pero con datos correspondientes al pasado.
o Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente.
• Datos ligeramente resumidos. Primer nivel de agregación de los datos detallados actuales.
o Corresponden a consultas habituales.
o Se almacenan en disco.
• Datos muy resumidos. Son el nivel más alto de agregación.
o Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rápidamente.
o Suelen estar separados del Almacén de datos, formando Supermercados de Datos (Data Marts).
Estructura física del Almacén de Datos
La estructura física puede presentar cualquiera de las siguientes configuraciones:
• Arquitectura centralizada. Todo el Almacén de datos se encuentra en un único servidor.
• Arquitectura distribuida. Los datos del Almacén se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lógicos.
• Arquitectura distribuida por niveles. Refleja la estructura lógica del Almacén, asignando los servidores en función del nivel de agregación de los datos que contienen. Un servidor está dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos.
Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).
2.1.3 Diseño de un almacén de datos
Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia el almacén. Una vez construido, se requieren medios para manejar grandes volúmenes de información. Se diseña su arquitectura dependiendo de la estructura interna de los datos del almacén y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organización o empresa, los cuales se describen a continuación:
• Situación actual de partida.- Cualquier solución propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura técnica existente y planeada de la compañía.
• Tipo y características del negocio.- Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.
• Entorno técnico.- Se debe incluir tanto el aspecto del hardware (mainframes, servidores, redes,...) así como aplicaciones y herramientas. Se dará énfasis a los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo operan, etc.
• Expectativas de los usuarios.- Un proyecto de data warehouse no es únicamente un proyecto tecnológico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad.
• Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construcción del data warehouse.
• Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que será entregado a los usuarios.
• Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harán para llegar a la construcción del producto final deseado.
• Prueba del concepto tecnológico.- Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionará finalmente como se espera.
Ventajas e inconvenientes de los almacenes de datos
Ventajas
Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de ellas son:
• Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a los usuarios finales
• Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencia', por ejemplo: obtener los ítems con la mayoría de las ventas en un área en particular dentro de los últimos dos años; informes de excepción, informes que muestran los resultados reales frente a los objetivos planteados a priori.
• Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.


Inconvenientes
Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos son:
• A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacén de datos no suele ser estático. Los costos de mantenimiento son elevados.
• Los almacenes de datos se pueden quedar obsoletos relativamente pronto.
• A veces, ante una petición de información estos devuelven una información subóptima, que también supone una perdida para la organización.
• A menudo existe una delgada línea entre los almacenes de datos y sistemas operativos. Hay que determinar qué funcionalidades de estos se pueden aprovechar y cuáles se deben implementar en el data warehouse, resultaría costoso implementar operaciones no necesarias o dejar de implementar alguna que sí vaya a necesitarse.

• 2.2 Datamining (Minería de datos)
• El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
• Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
• De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea más diferencias entre datos, información y conocimiento.



• Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:
• Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.
• Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
• Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
• Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.


2.2.1 Antecedentes

ANTECEDENTES
Casi desde la aparición de las Bases de Datos en el mercado del software de computadores, en la Universidad Nacional de Colombia se han venido utilizando y enseñando en cursos regulares de la carrera de pregrado en Ingeniería de Sistemas y en cursos de postgrado del Magíster Scientiae en Ingeniería de Sistemas. Esas asignaturas han tenido el carácter de materias teórico-prácticas y para la realización de ésta últimas se han usado, por ejemplo, SQL/DS de IBM, dBase II, dBase III, dBasePV, DB2 de IBM, Oracle de Oracle, Informix de IBM (antes de Informix), Access de Microsoft, Paradox, Adaptive Server Enterprise de Sybase, Adaptive Server Anywhere de Sybase, MS-SQL Server de Microsoft, MySql, postgreSQL y otros.
El área de Bases de Datos es de vital importancia para el Departamento de Ingeniería de Sistemas ya que en el mundo real en todos los sistemas de información existentes a nivel mundial son el soporte para la toma de decisiones, la minería de datos, la inteligencia de negocios, el procesamiento de aplicaciones y también son la fuente de información de las páginas Web dinámicas y personalizadas que diariamente se publican mundialmente a través de la red Internet.
También, hoy se presenta un fenómeno, que mientras la Administración de la Universidad utiliza un excelente servidor de bases de datos, ese producto no lo pueden utilizar los estudiantes de la Universidad Nacional de Colombia, para la realización de sus prácticas habituales.
Hoy posiblemente se tiene destreza en el manejo y uso de tales herramientas, pero ha faltado el proyecto que aborde la creación de un sistema propio, desarrollado en la Universidad Nacional de Colombia para tener "Know How", para tener un mayor dominio del tema, además de conocer, de la mejor manera, las otras herramientas de Bases de Datos existentes, no sólo las bases de datos relacionales, sino de otros tipos, como las orientadas a objetos.

2.2.2 Fases de proyectos de minería de datos

Dentro de un proyecto de Data Mining podemos diferenciar las siguientes fases:
1. Identificación y definición del objetivo de negocio a resolver. Muy importante. La minería de datos no es un fin en si mismo, sin objetivos de negocio no hay proyecto.
2. Identificación de las fuentes de datos para soportar la resolución de los objetivos y análisis preliminar de la calidad de los datos. Si no tenemos unos datos con la calidad requerida y el formato necesario, nuestro proyecto será un fracaso. Creo que muchas veces se subestima este punto...
3. Preparación y acondicionamiento de los datos. Una fase crucial, que ocupa un tanto por ciento importante del tiempo del proyecto. Con preparación y acondicionamiento estamos hablando de las estructuras que alimentaran la construcción del modelo. Por ejemplo, si queremos hacer una segmentación de clientes, para ello necesito preparar los datos en formato tabla de clientes, donde cada registro es un cliente con los atributos de modelización en columnas.
4. Modelización de datos. Aplicando las técnicas de minería de datos, obtenemos el mejor modelo predictivo posible para nuestros objetivos.
5. Análisis de resultados. Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
6. Conclusiones. ¿Se han cumplido las expectativas y los objetivos?
7. Puesta en producción. No nos podemos quedar con unos simples informes de consultoría o una serie de recomendaciones. Si cogemos los modelos generados y los ponemos en producción de forma efectiva estaremos aprovechando el principal beneficio del Data Mining.

2.2.3.- Filtrado de datos
Se recurre a la operación de filtración cuando se desean eliminar muchos informes, de tal modo que aparezcan sólo aquellos que nos interesan. Para aplicar un filtro podemos recurrir a dos métodos:

Filtro por selección: es el método más sencillo para realizar filtraciones, pero antes de usarlo se debe localizar en la tabla un ejemplo del valor que debe encontrarse en los informes filtrados. Para ello:

-Elegir el campo que contenga un ejemplo del valor que debe encontrarse en todos los informes filtrados.

-Seleccionar eventualmente sólo una parte de la voz del campo (por ejemplo, en el campo Apellidos, seleccionar la letra B si deseamos todos los informes que empiezan por esa letra)

-Hacer click en el botón filtro para selección.

Filtro para formulario: es un método más potente respecto del anterior en cuanto que permite la inserción de expresiones lógicas para localizar informes. Vemos:

-Abrir el formulario en Vista hoja de datos y hacer click sobre el botón de Filtro formulario

-Aparece un formulario en blanco con una única fila de informes. Hacer click en el campo en el cual deseamos vincular un criterio (también se puede usar menor de... mayor de...)




Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.
El proceso de minería de datos se compone de las siguientes fases:
• Selección y preprocesado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto".

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo que va a usarse), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el número de valores posibles (mediante redondeo, clustering...).
• 2.2.4 Selección de variables
Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.
Los métodos para la selección de características son básicamente dos:
1. Aquellos basados en la elección de los mejores atributos del problema
2. Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos



2.2.5 Extracción de conocimiento
Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
2.2.6 Interpretación y evaluación
Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
Si desea obtener una descripción más detallada, puede consultar la documentación de CRISP-DM (CRoss Industry Standard Process for Data Mining), que es un estándar industrial, utilizado por más de 160 empresas e instituciones de todo el mundo, que surge en respuesta a la falta de estandarización y propone un modelo de proceso general para proyectos de minería de datos:
• Neutral respecto a industria y herramientas
• Aplicable en cualquier sector de negocio


2.3 minería Web
La minería Web (o minería de uso de la web) es una aplicación especial de la minería de datos que consiste en extraer información y conocimiento útil específicamente de la actividad de un sitio web: análisis de tráfico (visitas y visitantes), contenidos más accedidos, procedencia, tipo de usuarios, navegadores y sistemas operativos, reglas de asociación entre páginas (tasa de conversión), etc.
El análisis de esta información, a partir del tráfico de un sitio web registrado de una manera adecuada, es fundamental, por una parte, para entender el comportamiento y los hábitos de los clientes/usuarios del sitio y, por otra, porque ayudan a mejorar su diseño.


El problema es que obtener una información fiable y precisa sobre el comportamiento real de los usuarios de un sitio web es una labor complicada por varios motivos: las particularidades de Internet (cachés intermedias, direcciones IP dinámicas, deslocalización geográfica, etc.), la heterogeneidad de las visitas (usuarios con diferentes expectativas, robots, navegadores, buscadores, etc.) o la complejidad de la información recibida (concepto de sesión, visitantes detrás de servidores proxy, nombres de máquinas y dominios, protocolos, etc.).
Le invitamos a conocer más detalles sobre este tipo de tecnologías, las diferentes alternativas de medición (registro) del tráfico (análisis de logs o empleo de huellas –tags o fingerprints–), con sus problemas e inconvenientes y posibles aplicaciones, accediendo a los enlaces de la izquierda.