
Зуев Сергей Валентинович
Степень: Кандидат физико-математических. Доцент: Институт энергетики, информационных технологий и управляющих систем, Кафедра программного обеспечения вычислительной техники и автоматизированных систем
Курс предназначен для специалистов с высшим образованием в областях маркетинга, статистики, экономики, имеющих начальные знания в области программирования на любом языке. В результате изучения курса будут приобретены знания в сфере Data Science (науки о данных) и Data Mining (извлечении данных), навыки составлять скрипты на языке Python и умения автоматизировать сбор данных с сайтов в сети интернет. Кроме того, слушатель, успешно освоивший курс, будет способен самостоятельно провести исследование: поставить или скорректировать задачу, провести мероприятия, составить отчет.
Курс состоит из 3 модулей, в каждом из которых имеются теоретические сведения, предоставляемые в формах озвученной презентации и конспекта лекции, а также лабораторные работы, выполняемые слушателем самостоятельно. Курс завершается тестированием, по результатам которого выдается сертификат о повышении квалификации.
3 лекции на темы: Введение в предметную область анализа данных (виды данных, структуры данных, системы обработки данных, данные в сети интернет). Понятие формата данных (форматы xml и csv, язык гипертекста html). Исследование в интернет (задача исследования, формат результатов исследования, методы проведения исследований на существующих данных в сети, веб-скрейпинг).
1 лабораторную работу: Формулировка задания на исследование в интернет.
3 лекции на темы: Язык программирования Python. Основные сведения (синтаксис, структуры данных, особенности). Методы и средства скрейпинга на языке Python (библиотека BeautifulSoup). Основы работы с регулярными выражениями и производство http-запросов (библиотека регулярных выражений re и библиотека http-запросов requests).
4 лабораторных работы: Создание простейших скриптов на Python (преобразование форматов данных, обработка списков, использование генераторов и функций). Парсинг сайта с использованием библиотеки BeautifulSoup (получение и верификация данных, поиск и устранение багов в сборе данных). Формирование http-запросов с помощью requests (сбор данных с разных сайтов, фильтрация данных). Поиск в больших данных с использованием средств библиотеки регулярных выражений re.
3 лекции на темы: Средство представления и обработки данных pandas (конвертация DataFrame в формат .xlsx). Основные возможности pyplot из библиотеки matplotlib для визуализации результатов исследования. Организация проведения исследования в интернет и представление его результатов.
3 лабораторных работы: Создание DataFrame и обработка данных в них. Визуализация данных средствами pyplot. Создание и проведение исследования полного цикла по сформулированному заданию; презентация проекта исследования и его результатов.
Тестирование включает все темы курса и не может быть удовлетворительно пройдено без выполнения лабораторных работ.
Степень: Кандидат физико-математических. Доцент: Институт энергетики, информационных технологий и управляющих систем, Кафедра программного обеспечения вычислительной техники и автоматизированных систем