Los cursos de capacitación en vivo Big Data en línea o presenciales, dirigidos por instructores, comienzan con una introducción a los conceptos elementales de Big Data, luego avanzan hacia los lenguajes de programación y las metodologías utilizadas para realizar Data Analysis. Las herramientas y la infraestructura para habilitar el almacenamiento Big Data, el procesamiento distribuido y la Scalabilidad se discuten, comparan e implementan en sesiones de práctica de demostración.
Big Data La formación está disponible como "Formación en vivo en línea" o "Formación en directo in situ". La capacitación en vivo en línea (también conocida como "capacitación remota en vivo") se lleva a cabo a través de un escritorio remoto interactivo. La capacitación en vivo en el sitio se puede llevar a cabo localmente en las instalaciones del cliente en México o en los centros de capacitación corporativa de NobleProg en México.
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a científicos e ingenieros de datos de nivel intermedio que deseen usar Google Colab y Apache Spark para el procesamiento y análisis de big data.
Al final de esta formación, los participantes serán capaces de:
Configure un entorno de big data con Google Colab y Spark.
Procese y analice grandes conjuntos de datos de manera eficiente con Apache Spark.
Visualice big data en un entorno colaborativo.
Integre Apache Spark con herramientas basadas en la nube.
Los participantes que completen esta capacitación en vivo dirigida por un instructor en México obtendrán una comprensión práctica y del mundo real de Big Data y sus tecnologías, metodologías y herramientas relacionadas.
Los participantes tendrán la oportunidad de poner en práctica estos conocimientos a través de ejercicios prácticos. La interacción grupal y la retroalimentación del instructor constituyen un componente importante de la clase.
El curso comienza con una introducción a los conceptos elementales de Big Data, luego progresa a los lenguajes de programación y las metodologías utilizadas para realizar Data Analysis. Por último, analizamos las herramientas y la infraestructura que permiten el almacenamiento Big Data, el procesamiento distribuido y la Scala bilidad.
Esta capacitación en vivo dirigida por un instructor en México (en línea o en el sitio) está dirigida a profesionales de datos de nivel avanzado que desean optimizar los flujos de trabajo de procesamiento de datos, garantizar la integridad de los datos e implementar soluciones sólidas de data lakehouse que puedan manejar las complejidades de las aplicaciones modernas de big data.
Al final de esta capacitación, los participantes serán capaces de:
Obtenga una comprensión profunda de la arquitectura de Iceberg, incluida la gestión de metadatos y el diseño de archivos.
Configure Iceberg para obtener un rendimiento óptimo en varios entornos e intégrelo con múltiples motores de procesamiento de datos.
Administre tablas Iceberg a gran escala, realice cambios de esquema complejos y controle la evolución de las particiones.
Domine las técnicas para optimizar el rendimiento de las consultas y la eficiencia del análisis de datos para grandes conjuntos de datos.
Implemente mecanismos para garantizar la coherencia de los datos, gestionar las garantías transaccionales y gestionar los errores en entornos distribuidos.
Esta capacitación en vivo dirigida por un instructor en México (en línea o en el sitio) está dirigida a profesionales de datos de nivel principiante que deseen adquirir el conocimiento y las habilidades necesarias para utilizar Apache Iceberg de manera efectiva para administrar conjuntos de datos a gran escala, garantizar la integridad de los datos y optimizar los flujos de trabajo de procesamiento de datos.
Al final de esta capacitación, los participantes serán capaces de:
Obtenga una comprensión profunda de la arquitectura, las características y los beneficios de Apache Iceberg.
Obtenga información sobre los formatos de tabla, la creación de particiones, la evolución del esquema y las capacidades de viaje en el tiempo.
Instala y configura Apache Iceberg en diferentes entornos.
Crear, administrar y manipular tablas Iceberg.
Comprender el proceso de migración de datos de otros formatos de tabla a Iceberg.
Esta capacitación en vivo dirigida por un instructor en México (en línea o en el sitio) está dirigida a profesionales de TI de nivel intermedio que desean mejorar sus habilidades en arquitectura de datos, gobernanza, computación en la nube y tecnologías de big data para administrar y analizar de manera efectiva grandes conjuntos de datos para la migración de datos dentro de sus organizaciones.
Al final de esta capacitación, los participantes serán capaces de:
Comprender los conceptos y componentes fundamentales de varias arquitecturas de datos.
Obtenga una comprensión completa de los principios de gobernanza de datos y su importancia en los entornos normativos.
Implemente y gestione marcos de gobernanza de datos como Dama y Togaf.
Aproveche las plataformas en la nube para un almacenamiento, procesamiento y gestión de datos eficientes.
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a ingenieros de datos de nivel intermedio que deseen aprender a usar Azure Data Lake Storage Gen2 para soluciones efectivas de análisis de datos.
Al final de esta capacitación, los participantes serán capaces de:
Comprenda la arquitectura y las características clave de Azure Data Lake Storage Gen2.
Optimice el almacenamiento y el acceso a los datos en cuanto a costes y rendimiento.
Integre Azure Data Lake Storage Gen2 con otros Azure servicios para análisis y procesamiento de datos.
Desarrolle soluciones con la API Azure de Data Lake Storage Gen2.
Solucione problemas comunes y optimice las estrategias de almacenamiento.
Esta capacitación en vivo dirigida por un instructor en México (en línea o en el sitio) está dirigida a profesionales de TI de nivel intermedio que desean tener una comprensión integral de IBM DataStage desde una perspectiva administrativa y de desarrollo, lo que les permite administrar y utilizar esta herramienta de manera efectiva en sus respectivos lugares de trabajo.
Al final de esta formación, los participantes serán capaces de:
Comprender los conceptos básicos de DataStage.
Aprenda a instalar, configurar y gestionar eficazmente los entornos de DataStage.
Conéctese a varias fuentes de datos y extraiga datos de manera eficiente de bases de datos, archivos planos y fuentes externas.
Los participantes que completen esta capacitación en vivo dirigida por un instructor en México obtendrán una comprensión práctica y del mundo real de Big Data y sus tecnologías, metodologías y herramientas relacionadas.
Los participantes tendrán la oportunidad de poner en práctica estos conocimientos a través de ejercicios prácticos. La interacción grupal y la retroalimentación del instructor constituyen un componente importante de la clase.
El curso comienza con una introducción a los conceptos elementales de Big Data, luego avanza hacia los lenguajes de programación y las metodologías utilizadas para realizar el análisis de datos. Finalmente, discutimos las herramientas y la infraestructura que permiten el almacenamiento de Big Data, el procesamiento distribuido y la Scalabilidad.
En esta capacitación en vivo dirigida por un instructor en México, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
Aprenda a usar Spark con Python para analizar Big Data.
Trabaja en ejercicios que imiten casos del mundo real.
Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
This instructor-led, live training in México (online or onsite) is aimed at intermediate-level database administrators, developers, and analysts who wish to master advanced SQL functionalities for complex data operations and database management.
By the end of this training, participants will be able to:
Perform advanced querying techniques using unions, subqueries, and complex joins.
Add, update, and delete data, tables, views, and indexes with precision.
Ensure data integrity through transactions and manipulate database structures.
Create and manage databases efficiently for robust data storage and retrieval.
Dremio es una "plataforma de datos de autoservicio" de código abierto que acelera la consulta de diferentes tipos de fuentes de datos. Dremio se integra con bases de datos relacionales, Apache Hadoop, MongoDB, Amazon S3, ElasticSearch y otras fuentes de datos. Es compatible con SQL y proporciona una interfaz de usuario web para crear consultas.En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán a instalar, configurar y usar Dremio como una capa unificadora para las herramientas de análisis de datos y los repositorios de datos subyacentes.Al final de esta formación, los participantes serán capaces de:
Instalar y configurar Dremio
Ejecute consultas en varias fuentes de datos, independientemente de la ubicación, el tamaño o la estructura
Integre Dremio con BI y fuentes de datos como Tableau y Elasticsearch
Audiencia
Científicos de datos
Business Analistas
Ingenieros de datos
Formato del curso
En parte conferencia, en parte discusión, ejercicios y práctica práctica intensa
Notas
Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para concertarlo.
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a profesionales de bases de datos de nivel intermedio que desean mejorar sus habilidades en Oracle SQL desarrollo y administración.
Al final de esta formación, los participantes serán capaces de:
Cree y optimice consultas complejas SQL.
Administre bases de datos de manera eficiente utilizando herramientas Oracle SQL.
Aplicar las mejores prácticas en el desarrollo y mantenimiento de bases de datos.
Administre el acceso de los usuarios y la seguridad de la base de datos en un entorno Oracle.
Apache Accumulo es un almacén de claves/valores ordenado y distribuido que proporciona almacenamiento y recuperación de datos robustos y escalables. Se basa en el diseño de BigTable de ogle y funciona con Apache Hadoop, Apache Zookeeper y Apache Thrift.Este curso en vivo dirigido por un instructor cubre los principios de funcionamiento detrás de Accumulo y guía a los participantes a través del desarrollo de una aplicación de muestra en Apache Accumulo.Formato del curso
Parte conferencia, parte discusión, desarrollo e implementación prácticos, pruebas ocasionales para medir la comprensión
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a desarrolladores e ingenieros de aplicaciones que desean dominar usos más sofisticados de la base de datos Teradata.
Al final de esta formación, los participantes serán capaces de:
Este curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Amazon Redshift es un servicio de almacenamiento de datos basado en la nube a escala de petabytes en AWS.En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán los fundamentos de Amazon Redshift.Al final de esta formación, los participantes serán capaces de:
Instalar y configurar Amazon Redshift
Cargue, configure, implemente, consulte y visualice datos con Amazon Redshift
Audiencia
Desarrolladores
Profesionales de TI
Formato del curso
En parte conferencia, en parte discusión, ejercicios y práctica práctica intensa
Nota
Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para concertarlo.
Los avances en las tecnologías y la creciente cantidad de información están transformando la forma en que se llevan a cabo los negocios en muchas industrias, incluido el gobierno. Go Las tasas de generación de datos de verificación y archivo digital están en aumento debido al rápido crecimiento de los dispositivos y aplicaciones móviles, los sensores y dispositivos inteligentes, las soluciones de computación en la nube y los portales orientados a los ciudadanos. A medida que la información digital se expande y se vuelve más compleja, la gestión, el procesamiento, el almacenamiento, la seguridad y la disposición de la información también se vuelven más complejos. Las nuevas herramientas de captura, búsqueda, descubrimiento y análisis están ayudando a las organizaciones a obtener información de sus datos no estructurados. El mercado gubernamental se encuentra en un punto de inflexión, dándose cuenta de que la información es un activo estratégico, y que el gobierno necesita proteger, aprovechar y analizar tanto la información estructurada como la no estructurada para servir y cumplir mejor con los requisitos de la misión. A medida que los líderes gubernamentales se esfuerzan por hacer evolucionar las organizaciones basadas en datos para cumplir con éxito la misión, están sentando las bases para correlacionar las dependencias entre eventos, personas, procesos e información.
Las soluciones gubernamentales de alto valor se crearán a partir de una combinación de las tecnologías más disruptivas:
Dispositivos móviles y aplicaciones
Servicios en la nube
Redes sociales, tecnologías empresariales y redes
Big Data y analítica
IDC predice que para el año 2020, la industria de TI alcanzará los 5 billones de dólares, aproximadamente 1,7 billones de dólares más que en la actualidad, y que el 80% del crecimiento de la industria será impulsado por estas tecnologías de la tercera plataforma. A largo plazo, estas tecnologías serán herramientas clave para hacer frente a la complejidad del aumento de la información digital. Big Data es una de las soluciones inteligentes de la industria y permite al gobierno tomar mejores decisiones al tomar medidas basadas en patrones revelados por el análisis de grandes volúmenes de datos, relacionados y no relacionados, estructurados y no estructurados.
Pero lograr estas hazañas requiere mucho más que simplemente acumular cantidades masivas de datos."Dar sentido a estos volúmenes de Big Data requiere herramientas y tecnologías de vanguardia que puedan analizar y extraer conocimientos útiles de vastos y diversos flujos de información", escribieron Tom Kalil y Fen Zhao de la Oficina de Política Científica y Tecnológica de la Casa Blanca en una publicación en el blog de la OSTP.
La Casa Blanca dio un paso para ayudar a las agencias a encontrar estas tecnologías cuando estableció la Iniciativa Nacional de Investigación y Desarrollo en 2012. La iniciativa incluyó más de 200 millones de dólares para aprovechar al máximo la explosión de Big Data y las herramientas necesarias para analizarla.
Los desafíos que plantea Big Data son casi tan desalentadores como alentadora es su promesa. Almacenar datos de manera eficiente es uno de estos desafíos. Como siempre, los presupuestos son ajustados, por lo que las agencias deben minimizar el precio por megabyte de almacenamiento y mantener los datos de fácil acceso para que los usuarios puedan obtenerlos cuando los quieran y como los necesiten. Hacer copias de seguridad de cantidades masivas de datos aumenta el desafío.
Analizar los datos de manera efectiva es otro desafío importante. Muchas agencias emplean herramientas comerciales que les permiten examinar las montañas de datos, detectando tendencias que pueden ayudarlas a operar de manera más eficiente. (Un estudio reciente de MeriTalk encontró que los ejecutivos federales de TI piensan Big Data que podrían ayudar a las agencias a ahorrar más de $ 500 mil millones y, al mismo tiempo, cumplir con los objetivos de la misión).
Las herramientas desarrolladas a medida Big Data también están permitiendo a las agencias abordar la necesidad de analizar sus datos. Por ejemplo, el Grupo de Análisis de Datos Computacionales del Laboratorio Nacional de Oak Ridge ha puesto a disposición de otras agencias su sistema de análisis de datos Piraña. El sistema ha ayudado a los investigadores médicos a encontrar un vínculo que puede alertar a los médicos sobre los aneurismas aórticos antes de que ataquen. También se utiliza para tareas más mundanas, como revisar los currículos para conectar a los candidatos a un puesto de trabajo con los responsables de contratación.
Apache Beam es un modelo de programación unificado de código abierto para definir y ejecutar tuberías de procesamiento de datos paralelas. Su poder radica en su capacidad para ejecutar canalizaciones por lotes y de transmisión, y la ejecución la lleva a cabo uno de los back-ends de procesamiento distribuido compatibles con Beam: Apache Apex, Apache Flink, Apache Spark y Google Cloud Dataflow. Apache Beam es útil para tareas ETL (Extracción, Transformación y Carga), como mover datos entre diferentes medios de almacenamiento y fuentes de datos, transformar datos a un formato más deseable y cargar datos en un nuevo sistema.
En esta capacitación en vivo dirigida por un instructor (presencial o remota), los participantes aprenderán a implementar los SDK Apache Beam en una aplicación Java o Python que define una canalización de procesamiento de datos para descomponer un conjunto de datos grandes en fragmentos más pequeños para un procesamiento paralelo e independiente.
Al final de esta formación, los participantes serán capaces de:
Instalar y configurar Apache Beam.
Utilice un único modelo de programación para llevar a cabo el procesamiento por lotes y por secuencias desde su aplicación Java o Python.
Ejecute canalizaciones en múltiples entornos.
Formato del curso
En parte conferencia, en parte discusión, ejercicios y práctica práctica pesada
Nota
Este curso estará disponible Scala en el futuro. Póngase en contacto con nosotros para organizarlo.
Esta sesión de capacitación en el aula explorará Big Data. Los delegados tendrán ejemplos basados en computadoras y ejercicios de estudio de casos para llevar a cabo con herramientas relevantes de big data
Día 1: proporciona una descripción general de alto nivel de las áreas temáticas esenciales de Big Data . El módulo se divide en una serie de secciones, cada una de las cuales se acompaña de un ejercicio práctico.
Día 2: explora una variedad de temas que relacionan las prácticas y herramientas de análisis para entornos de Big Data . No entra en detalles de implementación o programación, sino que mantiene la cobertura a nivel conceptual, centrándose en temas que permiten a los participantes desarrollar una comprensión integral de las funciones y características de análisis comunes que ofrecen las soluciones de Big Data .
Día 3: proporciona una descripción general de las áreas temáticas fundamentales y esenciales relacionadas con la arquitectura de la plataforma de soluciones de Big Data . Cubre los mecanismos de Big Data necesarios para el desarrollo de una plataforma de solución de Big Data y las opciones arquitectónicas para ensamblar una plataforma de procesamiento de datos. También se presentan escenarios comunes para proporcionar una comprensión básica de cómo se utiliza generalmente una plataforma de solución de Big Data .
Día 4: se basa en el Día 3 explorando temas avanzados relacionados con la arquitectura de la plataforma de soluciones de Big Data . En particular, se presentan y discuten diferentes capas arquitectónicas que conforman la plataforma de solución Big Data , incluidas las fuentes de datos, el ingreso de datos, el almacenamiento de datos, el procesamiento de datos y la seguridad.
Día 5: cubre una serie de ejercicios y problemas diseñados para evaluar la capacidad de los delegados para aplicar el conocimiento de los temas cubiertos en los días 3 y 4.
En esta capacitación en vivo dirigida por un instructor en México, los participantes aprenderán la mentalidad con la que abordar Big Data tecnologías, evaluar su impacto en los procesos y políticas existentes, e implementar estas tecnologías con el propósito de identificar actividades delictivas y prevenir el delito. Se examinarán estudios de caso de organizaciones de aplicación de la ley de todo el mundo para obtener información sobre sus enfoques de adopción, desafíos y resultados.Al final de esta capacitación, los participantes podrán:
Combinar la tecnología Big Data con los procesos tradicionales de recolección de datos para armar una historia durante una investigación.
Implementar soluciones industriales de almacenamiento y procesamiento de grandes datos para el análisis de datos.
Preparar una propuesta para la adopción de las herramientas y procesos más adecuados para permitir un enfoque basado en datos para la investigación criminal.
Big Data es un término que se refiere a las soluciones destinadas a almacenar y procesar grandes conjuntos de datos. Desarrolladas por Go ogle inicialmente, estas soluciones de Big Data han evolucionado e inspirado a otros proyectos similares, muchos de los cuales están disponibles como código abierto. R es un lenguaje de programación popular en la industria financiera.
Cuando las tecnologías de almacenamiento tradicionales no manejan la cantidad de datos que necesita almacenar, hay una gran cantidad de alternativas. Este curso trata de orientar a los participantes cuáles son las alternativas para almacenar y analizar Big Data y cuáles son sus pros y contras.
Este curso se centra principalmente en la discusión y presentación de soluciones, aunque los ejercicios prácticos están disponibles a pedido.
este entrenamiento en vivo (in situ o remoto) dirigido por un instructor está dirigido a ingenieros que deseen utilizar Confluent (una distribución de Kafka) para construir y administrar una plataforma de procesamiento de datos en tiempo real para sus aplicaciones.
al final de esta formación, los participantes podrán:
instalar y configurar la plataforma Confluent.
use herramientas y servicios de administración de Confluent & #39; s para ejecutar Kafka más fácilmente.
Store y procese los datos de la secuencia entrante.
optimice y administre clústeres de Kafka.
flujos de datos
Secure.
Format del curso
Conferencia y discusión
Interactive.
muchos ejercicios y prácticas.
implementación práctica de
en un entorno de laboratorio en vivo.
Course
este curso se basa en la versión de código abierto de Confluent: fuente abierta Confluent.
para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para organizar.
AudienciaSi intentas dar sentido a los datos a los que tienes acceso o quieres analizar datos no estructurados disponibles en la red (como Twitter, Linked in, etc...) este curso es para ti.Está dirigido principalmente a los responsables de la toma de decisiones y a las personas que necesitan elegir qué datos vale la pena recopilar y cuáles vale la pena analizar.No está dirigido a las personas que configuran la solución, sin embargo, esas personas se beneficiarán del panorama general.Modo de entregaDurante el curso, se presentarán a los delegados ejemplos de trabajo de tecnologías de código abierto.A las conferencias breves les seguirán una presentación y ejercicios sencillos por parte de los participantesContenido y software utilizadoTodo el software utilizado se actualiza cada vez que se ejecuta el curso, por lo que comprobamos las versiones más recientes posibles.Abarca el proceso desde la obtención, formateo, procesamiento y análisis de los datos, hasta explicar cómo automatizar el proceso de toma de decisiones con machine learning.
En esta capacitación en vivo dirigida por un instructor en México, los participantes aprenderán cómo construir un Data Vault.
Al final de esta formación, los participantes serán capaces de:
Comprender los conceptos de arquitectura y diseño detrás de Data Vault 2.0 y su interacción con Big Data, NoSQL e IA.
Utilice técnicas de almacenamiento de datos para permitir la auditoría, el seguimiento y la inspección de datos históricos en un almacén de datos.
Desarrolle un proceso ETL (Extracción, Transformación, Carga) coherente y repetible.
Construya e implemente almacenes altamente escalables y repetibles.
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a arquitectos, desarrolladores y administradores que deseen utilizar Denodo Platform para optimizar y acelerar la gestión de datos a través de la virtualización de datos.
Al final de esta formación, los participantes serán capaces de:
Instale y configure Denodo Platform.
Comprender las características y la arquitectura de Denodo Platform.
Comprenda los conceptos clave, los beneficios y los casos de uso de la virtualización de datos.
Aprenda a configurar y administrar el servidor de plataforma Denodo.
Implemente la seguridad de los datos, el acceso de los usuarios y la autenticación de los servicios.
Aplicar las herramientas y técnicas para el seguimiento de las operaciones y la optimización del rendimiento.
Apache Druid es un almacén de datos distribuidos, de código abierto, orientado a columnas, escrito en Java . Fue diseñado para ingerir rápidamente cantidades masivas de datos de eventos y ejecutar consultas OLAP de baja latencia en esos datos. Druid se usa comúnmente en aplicaciones de inteligencia empresarial para analizar grandes volúmenes de datos históricos y en tiempo real. También es adecuado para alimentar paneles de control rápidos, interactivos y analíticos para usuarios finales. Druid es utilizado por empresas como Alibaba, Airbnb, Cisco , eBay, Netflix, Paypal y Yahoo. En este curso en vivo dirigido por un instructor, exploramos algunas de las limitaciones de las soluciones de almacenamiento de datos y discutimos cómo Druid puede complementar esas tecnologías para formar una pila de análisis de transmisión flexible y escalable. Analizamos muchos ejemplos, ofreciendo a los participantes la oportunidad de implementar y probar soluciones basadas en druidas en un entorno de laboratorio. Formato del curso
Conferencia parcial, discusión parcial, práctica práctica intensa, pruebas ocasionales para evaluar la comprensión
Big data son conjuntos de datos que son tan voluminosos y complejos que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Los grandes desafíos de datos incluyen la captura de datos, el almacenamiento de datos, el análisis de datos, la búsqueda, el intercambio, la transferencia, la visualización, la consulta, la actualización y la privacidad de la información.
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) presenta los principios y enfoques detrás del procesamiento de datos de flujo distribuido y por lotes, y guía a los participantes a través de la creación de una aplicación de transmisión de datos en tiempo real en Apache Flink.
Al final de esta formación, los participantes serán capaces de:
Configure un entorno para desarrollar aplicaciones de análisis de datos.
Comprender cómo funciona la biblioteca de procesamiento de gráficos (Gelly) de Apache Flink.
Empaquete, ejecute y supervise aplicaciones de transmisión de datos tolerantes a errores y basadas en Flink.
Administre diversas cargas de trabajo.
Realizar analíticas avanzadas.
Configure un clúster de Flink de varios nodos.
Mida y optimice el rendimiento.
Integre Flink con diferentes Big Data sistemas.
Compare las capacidades de Flink con las de otros marcos de procesamiento de big data.
En esta capacitación en vivo dirigida por un instructor en México, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como análisis de grafos). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta formación, los participantes serán capaces de:
Comprenda cómo se conservan y atraviesan los datos de los gráficos.
Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Esta capacitación en vivo dirigida por un instructor en México (en línea o en el sitio) está dirigida a administradores que desean configurar Greenplum Database soluciones de inteligencia empresarial y almacenamiento de datos.
Al final de esta capacitación, los participantes serán capaces de:
Aborde las necesidades de procesamiento con Greenplum.
Realizar operaciones ETL para el procesamiento de datos.
Aproveche las infraestructuras de procesamiento de consultas existentes.
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) presenta Hortonworks Data Platform (HDP) y guía a los participantes a través de la implementación de la solución Spark + Hadoop.
Al final de esta formación, los participantes serán capaces de:
Utilice Hortonworks para ejecutar Hadoop de forma fiable a gran escala.
Unifique las capacidades de seguridad, gobernanza y operaciones de Hadoop con los flujos de trabajo analíticos ágiles de Spark.
Utilice Hortonworks para investigar, validar, certificar y dar soporte a cada uno de los componentes de un proyecto de Spark.
Procese diferentes tipos de datos, incluidos los estructurados, no estructurados, en movimiento y en reposo.
Cloudera Impala es un motor de consulta SQL de procesamiento masivo paralelo (MPP) de código abierto para clústeres Apache Hadoop.
Impala permite a los usuarios emitir consultas SQL de baja latencia a los datos almacenados en Hadoop Distributed File System y Apache Hbase sin necesidad de movimiento o transformación de datos.
Audiencia
Este curso está dirigido a analistas y científicos de datos que realizan análisis sobre datos almacenados en Hadoop a través de herramientas de Business Intelligence o SQL.
Después de este curso, los delegados podrán
Extraer información significativa de los clústeres de Hadoop con Impala.
Escriba programas específicos para facilitar la Inteligencia de Negocios en Impala SQL Dialect.
En esta capacitación en vivo dirigida por un instructor en México (presencial o remoto), los participantes aprenderán cómo configurar e integrar diferentes marcos Stream Processing con los sistemas de almacenamiento de big data existentes y las aplicaciones de software y microservicios relacionados.
Al final de esta formación, los participantes serán capaces de:
Instale y configure diferentes marcos Stream Processing, como Spark Streaming y Kafka Streaming.
Comprender y seleccionar el marco más adecuado para el trabajo.
Procesamiento de datos de forma continua, simultánea y registro por registro.
Integre Stream Processing soluciones con bases de datos, almacenes de datos, lagos de datos, etc. existentes.
Integre la biblioteca de procesamiento de flujos más adecuada con aplicaciones empresariales y microservicios.
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a ingenieros de datos, científicos de datos y programadores que deseen utilizar las funciones Apache Kafka en la transmisión de datos con Python.
Al final de esta capacitación, los participantes podrán usar Apache Kafka para monitorear y administrar condiciones en flujos de datos continuos utilizando Python programación.
Kafka Streams es una biblioteca del lado del cliente para crear aplicaciones y microservicios cuyos datos se pasan hacia y desde un sistema de mensajería de Kafka. Tradicionalmente, Apache Kafka se ha basado en Apache Spark o Apache Storm para procesar datos entre los productores de mensajes y los consumidores. Al llamar a la API de Kafka Streams desde una aplicación, los datos se pueden procesar directamente dentro de Kafka, evitando la necesidad de enviar los datos a un clúster independiente para su procesamiento.En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán cómo integrar Kafka Streams en un conjunto de aplicaciones de muestra Java que pasan datos hacia y desde Apache Kafka para el procesamiento de flujos.Al final de esta formación, los participantes serán capaces de:
Comprender las características y ventajas de Kafka Streams sobre otros marcos de procesamiento de flujos
Procese datos de flujo directamente dentro de un clúster de Kafka
Escribir una aplicación Java o Scala o un microservicio que se integre con Kafka y Kafka Streams
Escribir código conciso que transforme los temas de Kafka de entrada en temas de Kafka de salida
Compilar, empaquetar e implementar la aplicación
Audiencia
Desarrolladores
Formato del curso
En parte conferencia, en parte discusión, ejercicios y práctica práctica intensa
Notas
Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para concertar
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a desarrolladores que desean implementar Apache Kafka el procesamiento de flujos sin escribir código.
Al final de esta formación, los participantes serán capaces de:
Instale y configure Confluent KSQL.
Configure una canalización de procesamiento de secuencias utilizando solo los comandos SQL (sin codificación Java o Python).
Lleve a cabo el filtrado de datos, las transformaciones, las agregaciones, las uniones, las ventanas y la sessionización íntegramente en SQL.
Diseñe e implemente consultas interactivas y continuas para la transmisión de ETL y análisis en tiempo real.
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a personas técnicas que desean aprender a implementar una estrategia de aprendizaje automático mientras maximizan el uso de big data.
Al final de esta capacitación, los participantes:
Comprenda la evolución y las tendencias del aprendizaje automático.
Conozca cómo se utiliza el aprendizaje automático en diferentes industrias.
Familiarícese con las herramientas, habilidades y servicios disponibles para implementar el aprendizaje automático dentro de una organización.
Comprenda cómo se puede utilizar el aprendizaje automático para mejorar la minería y el análisis de datos.
Aprenda qué es un backend intermedio de datos y cómo lo utilizan las empresas.
Comprenda el papel que desempeñan el big data y las aplicaciones inteligentes en todas las industrias.
En esta capacitación en vivo dirigida por un instructor en México (presencial o remoto), los participantes aprenderán cómo implementar y administrar Apache NiFi en un entorno de laboratorio en vivo.
Al final de esta formación, los participantes serán capaces de:
Instala y configura Apachi NiFi.
Obtenga, transforme y administre datos de fuentes de datos dispares y distribuidas, incluidas bases de datos y lagos de big data.
Automatice los flujos de datos.
Habilite el análisis de transmisión.
Aplique varios enfoques para la ingesta de datos.
Transforme Big Data y conviértase en información empresarial.
En esta capacitación en vivo dirigida por un instructor en México, los participantes aprenderán los fundamentos de la programación basada en flujo a medida que desarrollan una serie de extensiones, componentes y procesadores de demostración utilizando Apache NiFi.
Al final de esta formación, los participantes serán capaces de:
Comprenda la arquitectura de NiFi y los conceptos de flujo de datos.
Desarrolle extensiones utilizando NiFi y API de terceros.
Desarrollar a medida su propio procesador Apache Nifi.
Ingiera y procese datos en tiempo real de formatos de archivo y fuentes de datos dispares y poco comunes.
Apache Solr La nube es un motor de procesamiento de datos distribuido que facilita la búsqueda e indexación de archivos en una red distribuida.En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán a configurar una SolrCloud instancia en Amazon AWS.Al final de esta formación, los participantes serán capaces de:
Comprenda las características de SolCloud y cómo se comparan con las de los clústeres maestro-esclavo convencionales
Configurar un clúster centralizado de SolCloud
Automatice procesos como la comunicación con fragmentos, la adición de documentos a los fragmentos, etcétera.
Utilice Zookeeper junto con SolrCloud para automatizar aún más los procesos
Utilice la interfaz para administrar los informes de errores
Equilibrar la carga de una SolrCloud instalación
Configurar SolrCloud para el procesamiento continuo y la conmutación por error
Audiencia
Desarrolladores de Solr
Gerentes de proyecto
Administradores de sistemas
Analistas de búsqueda
Formato del curso
En parte conferencia, en parte discusión, ejercicios y práctica práctica pesada
Esta capacitación en vivo dirigida por un instructor en México (en línea o en el sitio) está dirigida a ingenieros de datos, científicos de datos y programadores que deseen utilizar Spark Streaming funciones en el procesamiento y análisis de datos en tiempo real.
Al final de esta capacitación, los participantes podrán usar Spark Streaming para procesar flujos de datos en vivo para su uso en bases de datos, sistemas de archivos y paneles de control en vivo.
MLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje automático práctico sea escalable y fácil. Consta de algoritmos y utilidades de aprendizaje comunes, como clasificación, regresión, agrupación, filtrado colaborativo, reducción de dimensionalidad, así como primitivas de optimización de nivel inferior y API de canalización de nivel superior.Se divide en dos paquetes:
spark.mllib contiene la API original creada sobre RDD.
spark.ml proporciona una API de nivel superior basada en DataFrames para construir canalizaciones de ML.
AudienciaEste curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas incorporada para Apache Spark
Esta capacitación en vivo dirigida por un instructor en México (en línea o presencial) está dirigida a personas técnicas que deseen implementar Talend Open Studio para Big Data para simplificar el proceso de lectura y procesamiento Big Data.Al final de esta formación, los participantes serán capaces de:
Instale y configure Talend Open Studio para Big Data.
Conéctese con Big Data sistemas como Cloudera, HortonWorks, MapR, Amazon EMR y Apache.
Comprenda y configure los componentes y conectores de big data de Open Studio.
Configure los parámetros para generar automáticamente el código de MapReduce.
Utilice la interfaz de arrastrar y soltar de Open Studio para ejecutar Hadoop trabajos.
Prototipos de canalizaciones de big data.
Automatice los proyectos de integración de big data.
Teradata es uno de los populares sistemas relacionales Database Management. Es principalmente adecuado para construir aplicaciones de almacenamiento de datos a gran escala. Teradata logra esto mediante el concepto de paralelismo. Este curso presenta a los delegados Teradata.
Esta capacitación en vivo dirigida por un instructor presenta los conceptos detrás del análisis de datos interactivo y guía a los participantes a través de la implementación y el uso de Zeppelin en un entorno de usuario único o multiusuario.
Al final de esta formación, los participantes serán capaces de:
Instalar y configurar Zeppelin
Desarrolle, organice, ejecute y comparta datos en una interfaz basada en navegador
Visualice los resultados sin tener que consultar la línea de comandos o los detalles del clúster
Ejecute y colabore en flujos de trabajo largos
Trabaje con cualquiera de los varios backends de lenguaje/procesamiento de datos de complementos, como Scala (con Apache Spark), Python (con Apache Spark), Spark SQL, JDBC, Markdown y Shell.
Integre Zeppelin con Spark, Flink y Map Reduce
Instancias multiusuario seguras de Zeppelin con Apache Shiro
ZooKeeper es un servicio centralizado para mantener la información de configuración, asignar nombres, proporcionar sincronización distribuida y proporcionar servicios de grupo.
Leer más...
Última Actualización:
Testimonios(25)
La capacidad del formador para alinear el curso con los requisitos de la organización, además de limitarse a impartir el curso por el simple hecho de impartirlo.
Masilonyane - Revenue Services Lesotho
Curso - Big Data Business Intelligence for Govt. Agencies
Traducción Automática
Un montón de ejemplos prácticos, diferentes formas de abordar un mismo problema, y a veces trucos no tan obvios de cómo mejorar la solución actual
Rafal - Nordea
Curso - Apache Spark MLlib
Traducción Automática
El entrenador tenía una buena comprensión de los conceptos
Josheel - Verizon Connect
Curso - Amazon Redshift
Traducción Automática
Lo que más me gustó fue el dominio del tema por parte del trainer, su paciencia y claridad al explicar los conceptos, y especialmente su disposición constante para responder todas las dudas que surgieron. Fue una experiencia de aprendizaje realmente enriquecedora y muy agradable.
Patricio Condado - SOKODB
analytical functions
khusboo dassani - Tech Northwest Skillnet
Curso - SQL Advanced
The live examples
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Curso - Data Vault: Building a Scalable Data Warehouse
I enjoyed the Maven training and how to configure it. I like to use Java programming language.
Robert Cost - Corning Incorporated
Curso - Apache ActiveMQ
trainer's knowledge
Fatma Badi - Dubai Electricity & Water Authority
Curso - Big Data - Data Science
very interactive...
Richard Langford
Curso - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Curso - A Practical Introduction to Stream Processing
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Open discussion with trainer
Tomek Danowski - GE Medical Systems Polska Sp. Z O.O.
Curso - Process Mining
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Curso - Apache Spark in the Cloud
EL instructor explica muy bien.
Gerardo Hurtado
Curso - Advanced Teradata
That I had it in the first place.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Instructor very knowledgeable and very happy to stop and explain stuff to the group or to an individual.
Paul Anstee - Northrop Grumman
Curso - Apache Accumulo Fundamentals
Nice training, full of interesting topics. After each topic helpful examples were provided.
Pawel Wojcikowski - MicroStrategy Poland Sp. z o.o.
Curso - Teradata Fundamentals
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curso - Python and Spark for Big Data (PySpark)
Recalling/reviewing keypoints of the topics discussed.
Paolo Angelo Gaton - SMS Global Technologies Inc.
Curso - Building Stream Processing Applications with Kafka Streams
The VM I liked very much
The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly
I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
I genuinely enjoyed the hands passed exercises.
Yunfa Zhu - Environmental and Climate Change Canada
Cursos de Fin de Semana de Big Data, Capacitación por la Tarde de Big Data, Big Data boot camp, Clases de Big Data, Capacitación de Fin de Semana de Big Data, Cursos por la Tarde de Big Data, Big Data coaching, Instructor de Big Data, Capacitador de Big Data, Big Data con instructor, Cursos de Formación de Big Data, Big Data en sitio, Cursos Privados de Big Data, Clases Particulares de Big Data, Capacitación empresarial de Big Data, Talleres para empresas de Big Data, Cursos en linea de Big Data, Programas de capacitación de Big Data, Clases de Big Data