Обработка массивов данных в форматах .xlsx и .csv с использованием Pandas Python

О курсе

Курс предназначен для специалистов с высшим образованием в областях маркетинга, статистики, экономики, имеющих начальные знания в области программирования на любом языке. В результате изучения курса будут приобретены знания в сфере Data Science (науки о данных) и Data Mining (извлечении данных), навыки обработки данных в форматах .xlsx и .csv на языке Python, получения информации о данных, статистического анализа, изменения структуры данных и составления отчетов по данным.

Курс состоит из 3 модулей, в каждом из которых имеются теоретические сведения, предоставляемые в формах озвученной презентации (или работы с Python на экране) и конспекта лекции, а также тесты, выполняемые слушателем самостоятельно. По результатам выполнения тестов выдается сертификат о повышении квалификации.

Условия сертификации

Тестирование организовано по каждому модулю. По первому модулю три теста, по второму и третьему – по одному. Для успешной сдачи каждого теста необходимо набрать 17 баллов из 19. Успешные прохождения каждого из первых двух тестов оцениваются по 10 баллов в общее оценивание, третьего теста как 20 баллов, четвертого и пятого – по 30 баллов.

Содержание курса

Модуль 1 включает:

3 лекции на темы: Введение в курс (типы данных и способы их описания; представление данных в цифровом формате: форматы .xlsx и .csv; обзор программных средств для обработки данных, язык программирования Python, среды разработки, особенности работы в Jupyter notebook). Типы данных языка Python: кортежи, списки, строки, словари, числовые данные. Условный оператор и операторы цикла.

Модуль 2 включает:

3 лекции на темы: Простая обработка данных (библиотека для обработки данных Pandas: чтение данных, структуры данных Series и DataFrame, обращение к данным, фильтрация данных). Формирование отчета по данным (формирование отчета в виде списка; запись данных, функция ExcelWriter, примеры использования). Визуализация данных (гистограмма и полигон по одному признаку; сравнение нескольких признаков; построение легенд). Анализ структуры данных (получение статистической информации о данных; слияние объектов DataFrame по ключу или индексу, функция merge; конкатенация записей; преобразование данных, изменение формы и индексирования). Чистка данных (обработка пропусков в данных; поиск неявных дубликатов; обнаружение выбросов; регулярные выражения для строк).

Модуль 3 включает:

4 лекции на темы: Классы стандартных распределений. Описательные статистики (средние и разбросы значений; асимметрия и эксцесс; квартили). Проверка статистических гипотез, р-значения и квантили распределений. Сравнения столбцов данных. Корреляционный анализ и выделение линейной зависимости.

Преподаватели курса:

Кабалянц Петр Степанович

Степень: кандидат технических наук. Доцент: Институт энергетики, информационных технологий и управляющих систем, Кафедра программного обеспечения вычислительной техники и автоматизированных систем

Притчин Иван Сергеевич

Степень: бакалавр. Старший преподаватель: Институт энергетики, информационных технологий и управляющих систем, Кафедра программного обеспечения вычислительной техники и автоматизированных систем