
Этапы работы:
1. Поиск подходящих данных 2. Выбор данных 3. Анализ 4. Визуализация 5. Вывод и исследование 6. Использование модели ИИ в проекте
Поиск:
Так как поиск был легким, работа шла быстро, сначала сайтом для поиска был data.world, но т. к. меня мало что заинтересовало, мое внимание ушло на Kaggele, где подходящие данные были найдены на первой же странице.
Выбор таблицы данных:

Для Анализа были взяты данные по жанрам фильмов из Kaggel «YouTube Hits 100», благодаря которому делались разные выводы и проведен анализ.
Главным интересом было понять какой год стал самым популярным для выхода, какой ролик самый высоко оцененный, соотношения лайков и тому подобное. Далее подробнее.
Анализ данных:
Хотя анализ данных потребовал существенного временного ресурса, общая стратегия дальнейших действий была мне понятна.
В рамках подготовительного этапа работы был выполнен комплексный процесс обработки данных, который включал импорт исходных файлов в формате CSV и XLSX через платформу www.kaggle.com, последующую типовую трансформацию — конвертацию значений столбцов в числовой формат и даты, а также финальную обработку набора данных. Итоговым этапом стала визуализация результатов с применением различных типов графиков,
База данных — https://www.kaggle.com/datasets/eshummalik/yt-trends
Визуализация:
Типы созданных графиков: — Круговая диаграмма — Гистограмма — Точечная диаграмма
Разработан специализированный программный код, который выполняет следующие функции:
Программное решение обеспечивает полный цикл работы с данными: от их анализа до визуализации и сохранения метаинформации о происхождении данных:
Хранение метаданных — в частности, ссылок на исходные источники информации.
Создание графиков различных типов для наглядного представления результатов.
Преобразование информации в разнообразные форматы визуализации.
Анализ данных с использованием различных методов обработки.
Первостепенно была построена гистограмма, сначала я указала 60 столбцов, но поняв, что будет трудно переносить в визуализацию на сайте, снизила до 5.
Данные же рассказывают о распределении длительности видео и их количества.
Я сделала столбчатый формата гистограммы на сайте под известные данные и вывод пришел сам:
Большее количество видео (46) длится более 200 секунды, что означает самую популярную и виральную длительность для зрителя, музыки и артиста.
Чтобы попробовать сделать круговую диаграмму сначала я решила взять зависимость видео и артистов, поняв, как часто они публиковали хиты в индустрии музыки на YT.
Неудачный вариант наглядно.
Это было неудачно и я решила проанализировать просмотры по каналам через точечную таблицу, что привело к более понятному и наглядному результату.
Круговую же диаграмму я в итоге сделала по данным: длительность видео и их частота в чарте.
После визуализации можно сделать вывод, что самая популярная длительность видео 3+ минут, так как на нее выходит 65.6 процента в данных, когда как вторую занимает 2-3 минуты в 33.3, а самая минимальная длительность, как и процент в диаграмме, равна 1-2 минутам и 1.1 проценту.
Использование ИИ в проекте:
Разработка специализированного программного кода для обработки данных и создания различных типов визуализаций, включая хранение ссылок на исходные данные.
Описание применения генеративной модели: Для сбора информации о методах визуализации и программных решениях были задействованы ресурсы Chad AI (Chat GPT), Алиса и stackoverflow.com.
Обложка была сгенерирована с помощью искусственного интеллекта на платформе app.leonardo.ai.
Сайт для создания диаграмм www.iodraw.com.
Иногда был использован Exel для создания графиков для лучшего понимания.