Голосов: 0
#1
DEV-PYDATA. Программирование на Python для анализа данных [2020]
Высшая инженерная школа СПбПУ (Санкт-Петербургский Политехнический Университет)
Дмитрий Федоров
Целью курса является формирование и/или совершенствование теоретических знаний и умений в области анализа данных с применением языка Python, а также приобретение практических навыков обработки данных на языке Python для широкого круга специалистов, работающих с данными.
1. Основные принципы анализа данных с помощью возможностей языка Python.
2. Возможности выполнения операций над векторами и матрицами в NumPy.
3. Типы данных pandas.
4. Основы обработки естественного языка.
5. Принципы работы с файлами разных форматов.
6. Методы очистки и подготовки данных.
7. Принципы взаимодействия с базами данных (SQL).1. Умение использовать Jupyter Lab, использование системного командного процессора.
2. Выполнение операций над векторами и матрицами с помощью модуля NumPy.
3. Обработка табличных данных с помощью pandas.
4. Умение выбрать подмножество из таблицы.
5. Умение визуализировать данные.
6. Умение осуществлять сбор и подготовку данных с помощью языка Python, работа с модулем requests.
7. Умение взаимодействовать с базами данных (SQL).1. Осуществлять сбор и подготовку необходимых для анализа и визуализации данных с помощью языка Python.
2. Работать с модулем requests.
3. Осуществлять анализ данных из различных источников средствами языка Python.
4. Использовать модули NumPy и pandas для анализа данных.
5. Визуализировать аналитические данные.Тема 1. Введение в анализ данных. Операции над векторами и матрицами в NumPy
1.1 Введение в анализ данных. Возможности Jupyter LabТема 2. Операции над таблицами в pandas
1.2 Возможности модуля NumPy
- Введение в анализ данных.
- Выполнение внешнего кода %run.
- Длительность выполнения кода %timeit.
- Справка по магическим функциям.
- Использование системного командного процессора
Практические занятия:
- Операции над векторами и матрицами в NumPy.
- Сравнение list и ndarray.
- Создание ndarray из списка.
- Атрибуты массивов NumPy.
- Индексация массива.
- Срезы массива.
- Изменение формы массивов.
- Медлительность циклов Python.
- Универсальные функции NumPy.
- Агрегирование.
- Суммирование значений.
- Минимум и максимум.
- Транслирование.
- Сравнение, маски, булева логика.
- Прихотливая индексация. Сортировка массивов
Работа с векторами и матрицами в NumPy.
Агрегирование данных массива.
2.1 Общее знакомство с pandas, обзор возможностейТема 3. Сбор и подготовка данных с помощью языка Python
2.2 Типы данных pandas и операции над ними
- Обзор типов данных pandas.
- Выбор подмножества из таблицы.
- Построение графиков.
- Создание новых столбцов.
- Создание сводной статистики.
- Работа с текстовыми данными.
Практические занятия:
- Работа с объектами Series и DataFrame.
- Использование индексных объектов.
- Переиндексация.
- Удаление элементов из оси.
- Доступ по индексу, выборка, фильтрация.
- Сортировка и ранжирование
Построение графиков.
Работа с текстовыми данными.
Работа с объектами Series и DataFrame.
3.1 Работа с файлами разных форматовТема 4. Анализ данных с помощью возможностей языка Python
3.2 Очистка и подготовка данных
- Чтение и запись CSV, XML, JSON, Excel, HTML
3.3 Модуль requests
- Обработка отсутствующих данных.
- Фильтрация отсутствующих данных.
- Восполнение отсутствующих данных.
- Устранение дубликатов.
- Преобразование данных.
- Замена значений.
- Манипуляции со строками
3.4 Взаимодействие с базами данных (SQL).
- Обзор возможностей модуля requests.
- Обращение к внешним API (погода, курс валют).
3.5 Основы обработки естественного языка
- Работа с реляционными БД (sqlite3), выполнение SQL-запросов.
- SQL-запросы из pandas
Практические занятия:
- Предварительная обработка текста.
- Лексемизация слов.
- Нормализация слов
Работа с файлами разных форматов.
Очистка и подготовка данных.
4.1 Операции над таблицами в pandas5. Итоговая аттестация.
4.2 Визуализация данных
- Иерархическое индексирование.
- Сводная статистика по уровню.
- Комбинирование и слияние наборов данных.
- Изменение формы и поворот.
- Агрегирование данных и групповые операции.
- Метод apply.
- Сводные таблицы
4.3 Временные ряды
- Matplotlib: рисунки, подграфики, цвета, маркеры, аннотации.
- Seaborn/plotly: линейные графики, столбчатые диаграммы, гистограммы
4.4 Анализ данных из открытых источников
- Типы данных, относящиеся к дате и времени.
- Диапазоны дат, сдвиг.
- Скользящие оконные функции
Практические занятия:
- Анализ данных из открытых источников
Визуализация данных.
Анализ данных из социальной сети ВКонтакте.
Для просмотра содержимого вам необходимо зарегистрироваться!Для просмотра содержимого вам необходимо зарегистрироваться!
Последнее редактирование модератором:
- Статус
- В этой теме нельзя размещать новые ответы.