Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Cada sesión tiene una duración de 2 horas
Día-1: Sesión -1: Visión general del negocio de por qué Big Data Business Intelligence en Govt.
- Estudios de caso de los NIH y el Departamento de Educación
- Tasa de adaptación de Big Data en las agencias gubernamentales y cómo están alineando sus operaciones futuras en torno a Big Data Predictive Analytics
- Área de aplicación a gran escala en DoD, NSA, IRS, USDA, etc.
- Interfaz de Big Data con datos heredados
- Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
- Integración de datos y visualización de cuadros de mando
- Gestión del fraude
- Generación de reglas de negocio/detección de fraude
- Detección y creación de perfiles de amenazas
- Análisis de costo-beneficio para la implementación de Big Data
Día-1: Sesión-2 : Introducción de Big Data-1
- Principales características del Big Data: volumen, variedad, velocidad y veracidad. Arquitectura MPP para el volumen.
- Almacenes de datos: esquema estático, conjunto de datos que evoluciona lentamente
- Bases de datos MPP como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop: no hay condiciones en la estructura del conjunto de datos.
- Patrón típico: HDFS, MapReduce (crunch), recuperar de HDFS
- Por lotes: adecuado para análisis / no interactivo
- Volumen : Datos de transmisión de CEP
- Opciones típicas: productos CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
- Menos producción lista – Storm/S4
- Bases de datos NoSQL (en columnas y clave-valor): Más adecuadas como complemento analítico para el almacén de datos/base de datos
Día-1 : Sesión -3 : Introducción a Big Data-2
NoSQL soluciones
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Almacén KV (Jerárquico) - GT.m, Caché
- Tienda KV (Ordenada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tienda de tuplas - Gigaspaces, Coord, Apache River
- Base de datos de objetos: ZopeDB, DB40, Shoal
- Almacén de documentos: CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Amplio almacén en columnas: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de datos: Introducción al tema Data Cleaning en Big Data
- RDBMS: estructura/esquema estático, no promueve un entorno ágil y exploratorio.
- NoSQL – semiestructurado, estructura suficiente para almacenar datos sin un esquema exacto antes de almacenar datos
- Problemas de limpieza de datos
Día-1 : Sesión-4 : Introducción a Big Data-3 : Hadoop
- ¿Cuándo seleccionar Hadoop?
- ESTRUCTURADO: los almacenes/bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponer una estructura (no es bueno para la exploración activa)
- Datos ESTRUCTURADOS SEMI: difíciles de hacer con las soluciones tradicionales (DW/DB)
- Datos de almacenamiento = ENORME esfuerzo y estática incluso después de la implementación
- Para variedad y volumen de datos, procesados en hardware básico – HADOOP
- Commodity H/W necesario para crear un Hadoop clúster
Introducción a Map Reduce /HDFS
- MapReduce: distribuya la informática en varios servidores
- HDFS: hacer que los datos estén disponibles localmente para el proceso informático (con redundancia)
- Datos: pueden ser no estructurados o sin esquema (a diferencia de RDBMS)
- Responsabilidad del desarrollador para dar sentido a los datos
- Programming MapReduce = trabajar con Java (pros/contras), carga manual de datos en HDFS
Día-2: Sesión-1: Big Data Construcción de ecosistemas Big Data ETL: universo de Big Data Herramientas: ¿cuál usar y cuándo?
- Hadoop frente a otras soluciones NoSQL
- Para el acceso interactivo y aleatorio a los datos
- Hbase (base de datos orientada a columnas) sobre Hadoop
- Acceso aleatorio a los datos, pero se imponen restricciones (máx. 1 PB)
- No es bueno para el análisis ad-hoc, es bueno para el registro, el recuento, las series temporales
- Sqoop: importación desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
- Flume: transmita datos (por ejemplo, datos .log) a HDFS
Día-2: Sesión-2: Sistema Big Data Management
- Piezas móviles, nodos de cómputo de inicio/fallo: ZooKeeper: para servicios de configuración/coordinación/nomenclatura
- Canalización/flujo de trabajo complejo: Oozie: gestiona el flujo de trabajo, las dependencias y la conexión en cadena
- Implementar, configurar, administrar clústeres, actualizar, etc. (administrador de sistemas): Ambari
- En la nube : Whirr
Día-2: Sesión-3: Análisis predictivo en Business Intelligence -1: Técnicas fundamentales y BI basado en aprendizaje automático:
- Introducción al aprendizaje automático
- Aprendizaje de técnicas de clasificación
- Archivo de entrenamiento de preparación de predicción bayesiana
- Máquina de vectores de soporte
- KNN p-Tree Algebra y minería vertical
- Red neuronal
- Big Data Problema de variable grande -Bosque aleatorio (RF)
- Big Data Problema de automatización: RF de conjunto multimodelo
- Automatización a través de Soft10-M
- Herramienta de análisis de texto-Treeminer
- Aprendizaje ágil
- Aprendizaje basado en agentes
- Aprendizaje distribuido
- Introducción a las herramientas de código abierto para el análisis predictivo : R, Rapidminer, Mahut
Día-2: Sesión-4 Ecosistema de analítica predictiva-2: Problemas comunes de analítica predictiva en Govt.
- Analítica de información
- Analítica de visualización
- Análisis predictivo estructurado
- Analítica predictiva no estructurada
- Perfiles de amenazas/fraudes/proveedores
- Motor de recomendaciones
- Detección de patrones
- Descubrimiento de reglas/escenarios: fallo, fraude, optimización
- Descubrimiento de la causa raíz
- Análisis de sentimiento
- Analítica de CRM
- Análisis de redes
- Análisis de texto
- Revisión asistida por tecnología
- Análisis de fraude
- Analítica en tiempo real
Día-3 : Sesión-1 : Tiempo real y Scala se convirtió en analítica sobre Hadoop
- Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
- Apache Hama: para computación distribuida síncrona masiva
- Apache SPARK: para computación en clúster para análisis en tiempo real
- CMU Graphics Lab2: enfoque asíncrono basado en gráficos para la computación distribuida
- Enfoque basado en p-Algebra de KNN de Treeminer para reducir el costo de operación del hardware
Día 3: Sesión 2: Herramientas para eDiscovery y análisis forense
- eDiscovery sobre Big Data frente a datos heredados: una comparación de costo y rendimiento
- Codificación predictiva y revisión asistida por tecnología (TAR)
- Demostración en vivo de un producto Tar (vMiner) para comprender cómo funciona TAR para un descubrimiento más rápido
- Indexación más rápida a través de HDFS: velocidad de los datos
- NLP o procesamiento del lenguaje natural: diversas técnicas y productos de código abierto
- eDiscovery en lenguas extranjeras: tecnología para el procesamiento de lenguas extranjeras
Día-3 : Sesión 3: Big Data BI para Cyber Security – Comprensión de vistas completas de 360 grados desde la recopilación rápida de datos hasta la identificación de amenazas
- Comprender los conceptos básicos de la superficie de ataque de análisis de seguridad, la configuración incorrecta de seguridad y las defensas del host
- Infraestructura de red / Tubería de datos de gran tamaño / ETL de respuesta para análisis en tiempo real
- Prescriptivo vs predictivo – Reglas fijas basadas en reglas vs detección automática de amenazas a partir de metadatos
Día-3: Sesión 4: Big Data en USDA: Aplicación en Agricultura
- Introducción al IoT (Internet de las cosas) para la agricultura, basado en sensores Big Data y control
- Introducción a la imagen satelital y su aplicación en la agricultura
- Integración de datos de sensores e imágenes para la fertilidad del suelo, la recomendación de cultivo y la previsión
- Seguros agrarios y Big Data
- Pronóstico de pérdida de cosechas
Día-4 : Sesión-1: Prevención del fraude BI a partir de Big Data en Govt-Fraud analytic:
- Clasificación básica de la analítica de fraude: analítica basada en reglas vs analítica predictiva
- Aprendizaje automático supervisado frente a no supervisado para la detección de patrones de fraude
- Fraude de proveedores/cobro excesivo por proyectos
- Fraude a Medicare y Medicaid: técnicas de detección de fraude para el procesamiento de reclamos
- Fraudes en el reembolso de viajes
- Fraudes de reembolso del IRS
- Se ofrecerán estudios de casos y demostraciones en vivo siempre que se disponga de datos.
Día-4 : Sesión-2: Social Media Analítica- Recopilación y análisis de inteligencia
- API ETL de Big Data para extraer datos de redes sociales
- Texto, imagen, metadatos y vídeo
- Análisis de sentimiento a partir del feed de redes sociales
- Filtrado contextual y no contextual del feed de redes sociales
- Social Media Panel de control para integrar diversas redes sociales
- Elaboración automatizada de perfiles de redes sociales
- La demostración en vivo de cada análisis se dará a través de Treeminer Tool.
Día-4 : Sesión-3: Big Data Analítica en procesamiento de imágenes y feeds de vídeo
- Técnicas de almacenamiento de imágenes en Big Data- Solución de almacenamiento para datos que superan los petabytes
- LTFS y LTO
- GPFS-LTFS (Solución de almacenamiento en capas para datos de imágenes grandes)
- Fundamentos de la analítica de imágenes
- Reconocimiento de objetos
- Segmentación de imágenes
- Seguimiento de movimiento
- Reconstrucción de imágenes en 3D
Día-4: Sesión-4: Big Data aplicaciones en los NIH:
- Áreas emergentes de la informática Bio
- Problemas de metagenómica y minería de Big Data
- Análisis predictivo de Big Data para farmacogenómica, metabolómica y proteómica
- Big Data en el proceso de Genómica aguas abajo
- Aplicación de la analítica predictiva de Big Data en Salud Pública
Big Data Panel de control para un rápido acceso a diversos datos y visualización:
- Integración de la plataforma de aplicaciones existente con Big Data Dashboard
- Gestión de Big Data
- Caso de estudio de Big Data Dashboard: Tableau y Pentaho
- Utilice la aplicación Big Data para impulsar los servicios basados en la ubicación en el gobierno.
- Sistema de seguimiento y gestión
Día-5 : Sesión-1: Cómo justificar Big Data la implementación de BI dentro de una organización:
- Definición del ROI para la implementación Big Data
- Casos prácticos para ahorrar tiempo a los analistas en la recopilación y preparación de datos: aumento de la productividad
- Casos prácticos de aumento de ingresos al ahorrar el costo de la base de datos con licencia
- Aumento de ingresos de los servicios basados en la ubicación
- Evitar la prevención del fraude
- Un enfoque de hoja de cálculo integrado para calcular aprox. gastos frente a ganancias/ahorros de ingresos de Big Data implementación.
Día-5 : Sesión-2: Procedimiento paso a paso para reemplazar el sistema de datos heredado a Big Data Sistema:
- Comprensión práctica Big Data de la hoja de ruta de la migración
- ¿Cuál es la información importante que se necesita antes de diseñar una implementación Big Data
- ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
- Cómo estimar el crecimiento de los datos
- Casos de estudio
Día-5: Sesión 4: Revisión de Big Data Proveedores y revisión de sus productos. Sesión de preguntas y respuestas:
- Accenture
- APTEAN (anteriormente software de los CDC)
- Sistemas Cisco
- Cloudera
- Dell
- EMC
- Corporación GoodData
- Guavus
- Sistemas de datos de Hitachi
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluciones de Opera
- Oráculo
- Pentaho
- Platfora
- Qliktech
- Cuanto
- Espacio en rack
- Análisis de Revolution
- Ventas de ventas
- SAVIA
- Instituto SAS
- Sisense
- Software AG/Terracotta
- Automatización de Soft10
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Piensa en grande en analítica
- Sistemas de señalización de mareas
- Minador de árboles
- VMware (Parte de EMC)
Requerimientos
- Conocimiento básico de la operación comercial y los sistemas de datos en el gobierno en su dominio
- Conocimientos básicos de SQL/Oracle o bases de datos relacionales
- Conocimientos básicos de Statistics (a nivel de hoja de cálculo)
35 Horas
Testimonios (1)
La capacidad del formador para alinear el curso con los requisitos de la organización, además de limitarse a impartir el curso por el simple hecho de impartirlo.
Masilonyane - Revenue Services Lesotho
Curso - Big Data Business Intelligence for Govt. Agencies
Traducción Automática