Длительность
12 месяцев 2 занятия в неделю
Диплом
о профессиональной переподготовке
Трудоустройство
после обучения
Дата-инженер (Data Engineer) — это специалист, который собирает и обрабатывает большие данные, загружает их в модель для анализа, а затем организовывает их хранение и дальнейшее использование в бизнесе. Это представитель самой быстрорастущей профессии на рынке Data Science
Кому подойдёт этот курс
Новичкам в Data Engineering
Директорам предприятий
Чему вы научитесь
Собирать и обрабатывать данные
Работать с инфраструктурой.
Проектировать хранилища
Содержание курса
Подготовительный блок
Введение в Git
Установка и настройка Git
Основные команды терминала
Работа с репозиториями в Git
Управление файлами репозитория
История изменений
Работа с ветками репозитория
Публикация репозитория
Слияния веток
Управление версиями
Создание pull-request
Сложные операции
Работа с Fork-репозиториями
13 видео-уроков
2 часа обучающего контента
Сбор и хранение данных
Вебинар. Установка окружения. DDL-команды
Видеоурок. Управление базами данных. Язык запросов SQL
Вебинар. Введение в проектирование баз данных
Вебинар. CRUD-операции
Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Видеоурок. Сложные запросы
Вебинар. Сложные запросы
Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Видеоурок. Оптимизация запросов. NoSQL
Вебинар. Оптимизация запросов
1 месяц — 12 уроков
18 часов контента, 36 часов практики
Знакомство с Python
Некоторые встроенные типы и операции с ними
Функции. Словари
Функции. Словари
Генераторы и comprehensions. Множества
Работа с файлами
Работа с файловой системой. Исключения в Python
Регулярные выражения и декораторы в Python
Объектно-ориентированное программирование (ООП). Введение
Объектно-ориентированное программирование (ООП). Продвинутый уровень
Объектно-ориентированное программирование (ООП). Полезные дополнения
1 месяц — 11 уроков
17 часов контента, 34 часа практики
Основы клиент-серверного взаимодействия. Парсинг API
Парсинг HTML. Beautiful Soup, MongoDB
Системы управления базами данных MongoDB и SQLite в Python
Парсинг HTML. XPath
Фреймворк Scrapy
Scrapy. Парсинг фото и файлов
Selenium в Python
Работа с данными
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Разработка собственного парсера
Построение хранилищ данных для систем аналитики
Введение
Архитектура хранилищ
Проектирование хранилища, часть 1
Проектирование хранилища, часть 2
Создание ETL-процесса, часть 1
Создание ETL-процесса, часть 2
Управление качеством данных
Курсовой проект
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Почему OLAP. Готовим ETL и DWH
Многомерное хранилище. Работа с измерениями
Создание мер. Процессинг и его оптимизация
Работа в MDX. Автопроцессинг
Подключение BI-системы
1 месяц — 4 урока
13 часов контента, 27 часов практики
Подходы к организации NoSQL данных
Redis
MongoDB. Часть 1
MongoDB. Часть 2
MongoDB. Часть 3
Tarantool. Часть 1
Tarantool. Часть 2
1 месяц — 7 уроков
14 часов контента, 12 часов практики
Хранилище для BI-системы
Распределенные базы данных
Введение в Hadoop
HDFS
YARN, MR
Hive, HUE
Форматы хранения
ETL
NoSQL
DWH
1 месяц – 8 уроков
12 часов контента, 24 часа практики
Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных
Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов
Типы данных в Spark. Коллекции как объекты DataFrame. User-defined Functions
Машинное обучение на PySpark на примере линейной регрессии
1 месяц — 4 урока
6 часов контента, 12 часов практики
Планирование задач. Введение Apache AirFlow
Установка Airflow. Создание и основные параметры DAG
Разработка потоков данных
Airflow в production. Примеры реальных задач
1 месяц — 4 урока
8 часов контента, 18 часов практики
Полноценный ETL-пайплайн с использованием инструментов работы с большими данными
Real-time обработка данных и инфраструктура
Архитектура Kafka, Kafka Workflow
Kafka Producer и Kafka Consumer
Kafka Broadcasting and Groups
Kafka Stream
Processor API
Динамические запросы в Apache Kafka
1 месяц — 8 уроков
9 часов контента, 18 часов практики
Микросервисы и контейнеры
Docker
Введение в Kubernetes
Хранение данных и ресурсы
Сетевые абстракции Kubernetes
Устройство кластера
Продвинутые абстракции
Деплой тестового приложения в кластер, CI/CD
1 месяц — 8 уроков
12 часов контента, 24 часов практики
Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения
Предметы с индивидуальным выбором даты старта
JVM & Apache Hadoop
Введение в Scala
Spark Core DSL
Spark Core техники
Преобразование структурированных данных в Spark SQL
Потоковая обработка данных Spark Streaming
Введение в машинное обучение на Spark ML
Интерактивный анализ данных в Apache Zeppelin
1 месяц – 8 уроков
16 часов контента, 8 часов практики
Введение. Установка ОС
Настройка и знакомство с интерфейсом командной строки
Пользователи. Управление пользователями и группами
Загрузка ОС и процессы
Устройство файловой системы Linux. Понятия файла и каталога
Введение в скрипты Bash. Планировщики задач crontab и at
Управление пакетами и репозиториями. Основы сетевой безопасности
Введение в Docker
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Будьте первым кто оставит отзыв.
Оставить отзыв можно только с предоставлением сертификата о прохождении курса.
Популярные курсы
-
Онлайн-курс для подростков «Стресс...3 900 ₽От Детская бизнес-школа ITC Group
-
MBA: Менеджмент в медицине, програ...350 000 ₽От Emas
-
MBA: Стратегический менеджмент, ди...315 000 ₽От Emas
-
Executive MBA ǀ 1 год385 000 ₽От Emas
-
Executive MBA: Стратегический мене...385 000 ₽От Emas
-
DBA: Стратегический менеджмент, ди...505 000 ₽От Emas