
Для своего проекта я выбрала датасет о наблюдениях НЛО (https://www.kaggle.com/datasets/talesgomes27/ufo-sightings-around-the-world), который я нашла на сайте Kaggle (https://www.kaggle.com/).
Кто-то искренне верит в пришельцев, кто-то объясняет их игрой воображения или природными явлениями. Этот проект посвящен исследованию данных наблюдений НЛО по всему миру. Моя цель — проанализировать когда и где было больше всего сообщений и что именно представляли из себя неопознанные летающие объекты, выявить закономерности в зарегистрированных наблюдениях в разных регионах и в разное время. Данный анализ может быть интересен как для тех, кто верит в существование пришельцев, так и для скептиков: одним он позволит сделать определенные выводы о природе НЛО, а другим поможет изучить человеческое восприятие и общие социальные тенденции. Ну и еще мне просто нравится эта тематика.
Я решила визуализировать полученные данные с помощью столбчатых, круговой, пузырчатой и стволовой диаграмм, потому что эти виды диаграмм кажутся мне наиболее наглядными. Для проекта я подобрала определенную цветовую палитру, ассоциирующуюся с НЛО, и соответствующе оформила все графики.

Цветовая палитра
График 1
Для начала я решила визуализировать данные о формах НЛО. В датасете содержалось множество вариантов, и некоторые из них встречались всего 1-2 раза, поэтому я решила вывести наиболее часто упоминающиеся, чтобы график не был гигантским. Был написан следующий код:

Данный код фильтрует данные и визуализирует их в виде столбчатой диаграммы. Он выделяет 9 наиболее часто встречаемых форм, а все остальные опции объединяет в одну и выводит в отдельный столбец под названием «Other».
Далее я прогнала код через ChatGPT (https://chatgpt.com/?model=auto) и попросила его добавить на фон маленькие белые точки, чтобы сымитировать звезды, а также внести другие изменения, чтобы график выглядел красивее.
Промпт: 'Can you make the backround color #1a0443 instead of white, get rid of the black frame, make the text white and add tiny white dots to the backround to imitate stars please? '
По полученному графику видно, что наиболее часто-встречающаяся форма НЛО — свет. Столбец 'Other' так же получился большим, так как он содержит в себе сумму всех остальных возможных вариантов. На третьем месте по популярности оказался вариант 'Unknown' — НЛО, форму которого очевидцы не смогли описать.
Графики 2 и 3
Далее я решила проанализировать информацию о том, в какой стране наиболее часто докладывали о НЛО. Был написан следующий код, визуализирующий топ 4 самых популярных варианта в виде круговой диаграммы (код выводит топ 3 самые популярные страны и объединяет остальные страны в четвертую опцию 'Other').
С помощью ChatGPT я поменяла наклон надписей на диаграмме, чтобы она была более читаемой.
Промпт: 'Can you adjust writings' angles to the piecharm and keep the USA percent horisontal'
Чаще всего о пришельцах докладывают в США. Это связано с популярностью данной тематики в медиа этой страны: увидев что-то необычное, житель Америки охотнее поверит в то, что это НЛО, в то время как житель другой страны может предположить что-то другое. Так как США оказались лидером в этом топе, я решила построить диаграмму, которая позволит узнать подробности и выведет штаты, в которых чаще всего видели неопознанный летающий объект. Найдя вдохновение на сайте Matplotlib (https://matplotlib.org/), я решила визуализировать эти данные в виде стволовой диаграммы:
Таким образом, чаще всего НЛО встречаются в Калифорнии и Флориде. Калифорния — самый населенный штат, поэтому неудивительно что оттуда поступило больше всего донесений.
График 4
Следующий график посвящен длительности наблюдения НЛО. Из датасета я выделила топ 10 наиболее популярных вариантов:
Далее с помощью ChatGPT я привела диаграмму к общему стилю проекта, а так же перевела количество упоминаний в процентное соотношение потому что мне показалось что так будет нагляднее.
Промпт: 'Can you please turn frequency into percentages, change backround color and backround plot from white to #68cb8a, change the frame color to white, change bars color to #50318f and add outline to the bars with color #5f69a4'
График показал, что наиболее частая продолжительность встречи с НЛО составляет 5 минут, 6% от всего числа доложивших наблюдали НЛО на протяжении этого промежутка времени.
График 5
Я решила также выяснить время, в которое чаще всего происходили встречи. В датасете данные о времени и датах были сохранены вместе и разделены пробелом. Я написала следующий код, который отделяет время от даты и визуализирует 10 наиболее часто-встречаемых вариантов времени в виде точечной диаграммы:
График показывает, что чаще всего пришельцы встречаются ночью. Самое распространенное точное время их появления — 22:00.
График 6
И напоследок я оставила самые интересные, по моему мнению, данные: день, в который поступило больше всего докладов о НЛО. На этот раз я выделила оставшиеся данные о датах, отделив их от ранее проанализированного времени:
Днем, в который поступило больше всего докладов о пришельцах, оказалось 7 ноября 2015 года.
Данный анализ данных дает информацию о частоте и распределении зарегистрированных наблюдений. Визуализация тенденции в датах, времени и местах может позволить определить влияние на эту закономерность социальных и культурных факторов. Или же побольше узнать про НЛО и их предпочтения, тут можно сделать разные выводы.
Ссылка на блокнот с кодом и датасет: https://drive.google.com/drive/folders/1FPJAag6_w86A7rPtKwkRY-b-kvUxlaXt?usp=drive_link
Описание применения генеративной модели
Leonardo.Ai (https://app.leonardo.ai/image-generation) - генерация обложки (промпт: 'an UFO emittiong a neon green light on a dark purple backround with tiny white stars, 2d illustration style, flat colors')
iLoveIMG (https://www.iloveimg.com/upscale-image), Pixelcut (https://www.pixelcut.ai/ai-image-editor?tool=upscale) - увеличение качества графиков
ChatGPT (https://openai.com/) - корректировка графиков