Data Engineering

39 студентов зачислены

Длительность

12 месяцев 2 занятия в неделю

Диплом

о профессиональной переподготовке

Трудоустройство

после обучения

Дата-инженер (Data Engineer) — это специалист, который собирает и обрабатывает большие данные, загружает их в модель для анализа, а затем организовывает их хранение и дальнейшее использование в бизнесе. Это представитель самой быстрорастущей профессии на рынке Data Science

Кому подойдёт этот курс

Новичкам в Data Engineering

Директорам предприятий

Чему вы научитесь

Собирать и обрабатывать данные

Работать с инфраструктурой.

Проектировать хранилища

Содержание курса

Подготовительный блок

Введение в Git
Установка и настройка Git
Основные команды терминала
Работа с репозиториями в Git
Управление файлами репозитория
История изменений
Работа с ветками репозитория
Публикация репозитория
Слияния веток
Управление версиями
Создание pull-request
Сложные операции
Работа с Fork-репозиториями
13 видео-уроков
2 часа обучающего контента

Сбор и хранение данных

Вебинар. Установка окружения. DDL-команды
Видеоурок. Управление базами данных. Язык запросов SQL
Вебинар. Введение в проектирование баз данных
Вебинар. CRUD-операции
Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Видеоурок. Сложные запросы
Вебинар. Сложные запросы
Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Видеоурок. Оптимизация запросов. NoSQL
Вебинар. Оптимизация запросов
1 месяц — 12 уроков
18 часов контента, 36 часов практики

Знакомство с Python
Некоторые встроенные типы и операции с ними
Функции. Словари
Функции. Словари
Генераторы и comprehensions. Множества
Работа с файлами
Работа с файловой системой. Исключения в Python
Регулярные выражения и декораторы в Python
Объектно-ориентированное программирование (ООП). Введение
Объектно-ориентированное программирование (ООП). Продвинутый уровень
Объектно-ориентированное программирование (ООП). Полезные дополнения
1 месяц — 11 уроков
17 часов контента, 34 часа практики

Основы клиент-серверного взаимодействия. Парсинг API
Парсинг HTML. Beautiful Soup, MongoDB
Системы управления базами данных MongoDB и SQLite в Python
Парсинг HTML. XPath
Фреймворк Scrapy
Scrapy. Парсинг фото и файлов
Selenium в Python
Работа с данными
1 месяц — 8 уроков
12 часов контента, 24 часа практики

Разработка собственного парсера

Построение хранилищ данных для систем аналитики

Введение
Архитектура хранилищ
Проектирование хранилища, часть 1
Проектирование хранилища, часть 2
Создание ETL-процесса, часть 1
Создание ETL-процесса, часть 2
Управление качеством данных
Курсовой проект
1 месяц — 8 уроков
12 часов контента, 24 часа практики

Почему OLAP. Готовим ETL и DWH
Многомерное хранилище. Работа с измерениями
Создание мер. Процессинг и его оптимизация
Работа в MDX. Автопроцессинг
Подключение BI-системы
1 месяц — 4 урока
13 часов контента, 27 часов практики

Подходы к организации NoSQL данных
Redis
MongoDB. Часть 1
MongoDB. Часть 2
MongoDB. Часть 3
Tarantool. Часть 1
Tarantool. Часть 2
1 месяц — 7 уроков
14 часов контента, 12 часов практики

Хранилище для BI-системы

Распределенные базы данных

Введение в Hadoop
HDFS
YARN, MR
Hive, HUE
Форматы хранения
ETL
NoSQL
DWH
1 месяц – 8 уроков
12 часов контента, 24 часа практики

Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных
Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов
Типы данных в Spark. Коллекции как объекты DataFrame. User-defined Functions
Машинное обучение на PySpark на примере линейной регрессии
1 месяц — 4 урока
6 часов контента, 12 часов практики

Планирование задач. Введение Apache AirFlow
Установка Airflow. Создание и основные параметры DAG
Разработка потоков данных
Airflow в production. Примеры реальных задач
1 месяц — 4 урока
8 часов контента, 18 часов практики

Полноценный ETL-пайплайн с использованием инструментов работы с большими данными

Real-time обработка данных и инфраструктура

Архитектура Kafka, Kafka Workflow
Kafka Producer и Kafka Consumer
Kafka Broadcasting and Groups
Kafka Stream
Processor API
Динамические запросы в Apache Kafka
1 месяц — 8 уроков
9 часов контента, 18 часов практики

Микросервисы и контейнеры
Docker
Введение в Kubernetes
Хранение данных и ресурсы
Сетевые абстракции Kubernetes
Устройство кластера
Продвинутые абстракции
Деплой тестового приложения в кластер, CI/CD
1 месяц — 8 уроков
12 часов контента, 24 часов практики

Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения

Предметы с индивидуальным выбором даты старта

JVM & Apache Hadoop
Введение в Scala
Spark Core DSL
Spark Core техники
Преобразование структурированных данных в Spark SQL
Потоковая обработка данных Spark Streaming
Введение в машинное обучение на Spark ML
Интерактивный анализ данных в Apache Zeppelin
1 месяц – 8 уроков
16 часов контента, 8 часов практики

Введение. Установка ОС
Настройка и знакомство с интерфейсом командной строки
Пользователи. Управление пользователями и группами
Загрузка ОС и процессы
Устройство файловой системы Linux. Понятия файла и каталога
Введение в скрипты Bash. Планировщики задач crontab и at
Управление пакетами и репозиториями. Основы сетевой безопасности
Введение в Docker
1 месяц — 8 уроков
12 часов контента, 24 часа практики

Уроки проходят в формате online-трансляций, несколько раз в неделю в вечернее время по Москве. Преподаватель объясняет темы, все его действия отображаются на экране. Студенты задают вопросы и обсуждают материал в чате. В конце каждого урока студенты получают практические задания. Преподаватель оценивает их и обсуждает плюсы и минусы на следующем занятии.
Для тех, кто не смог вовремя присутствовать на уроке, мы записываем каждое занятие. Видеозаписи всегда доступны в разделе обучения. Также к каждому уроку мы разработали методички, с помощью которых можно лучше подготовиться к занятиям и получить дополнительные знания.
Если вы являетесь студентом платных курсов и у вас возникли вопросы, связанные с образовательным процессом, свяжитесь с нами: sales@geekbrains.ru или 8-800-700-68-41 (звонок бесплатный). По остальным вопросам пишите нам на support@geekbrains.ru

Будьте первым кто оставит отзыв.

Оставить отзыв можно только с предоставлением сертификата о прохождении курса.

Пожалуйста, войдите чтобы оставить отзыв
Цена:
224 500 ₽ 134 700 ₽