Original size 2480x3500

Пацанские цитаты

PROTECT STATUS: not protected
Original size 1728x688

Я была в поисках интересного датасета, и случайно нашла Russian «gang» quotes. В нем собрано 846 пацанских цитатат из разных сайтов. Я решила, что просто будет прикольно поработать с этими данными. Что же тут исследовать?

Я задалась этим вопросом и стала думать, почему вообще существует такое явление в культуре. Что отличает этот тип цитат от других? Как сконструированы эти выражения на языковом уровне и почему они вызывают смех?

Original size 4347x563

Настоящая работа заканчивается тогда, когда начинается подготовка

Original size 4347x3392

Работу я начала с исследования визуальной части. Большая часть цитат графически исполнялись в виде так называемых демотиваторов и других вариаций компановки чб фото с подписью на черном или белом фоне. Самым частым шрифтом оказался Impact, поэтому он и был выбран для заголовков. Поскольку шрифт графически не очень актуален и плохо воспринимается в мелком наборе, в пару ему был взять PT Sans. Цветовая гамма была взята также из графических изображений цитат.

Для работы я установила и использовала дотаточно много библиотек: Pandas, Matplot, pymystem3 и др.

Для визуализации данных я выбрала следующие типы графиков: столбчатая диаграмма, круговая диаграмма, облако слов, точечная диаграмма и таблицы. Они оказались наиболее наглядными для моих задач.

Original size 4347x563

Без этапов работа не идёт, но если идёт — значит, она волк

Original size 1232x578

Анализ я начала с того, что почистила текст: убрала лишние символы, привела всё к одному регистру и разбила на слова. Потом сделала лемматизацию — чтобы привести слова к их базовой форме — и посчитала, какие слова и как часто повторяются. Это нужно было для того, чтобы определить, какой лексикой чаще всего пользуются авторы цитат. 100 самых частых лексем отобразила облаком слов.

0
0

После выявления самых частых слов, я поняла, что некоторые слова связаны общий темой и решила посмотреть, какие темы звучат чаще всего в пацанских цитатах. Для этого на основе лемм я вручную составила словари для каждой темы из часто встречающихся слов. Одна и то же цитата могла попасть в разные темы. Наиболее частыми оказались цитаты про жизнь, потому что тема сама по себе большая и охватывала больше лемм, чем другие. Были также цитаты, которые по тем или иным причинам не попали ни в одну из групп. Я решила их тоже отразить.

Original size 1385x685
0
Original size 4347x563

Пацаны говорят спокойно. Потому что когда за словом — дело, не надо громких вступлений

Original size 1728x615

Итак, теперь уже есть представление о том, какими словами и о чем говорят пацанские цитаты. Теперь нужно понять, как они разговаривают. Для этого я проанализировала цитаты по знакам пунктуации и составила диаграмму самыми частыми эмоциями в цитатах. Оказалось, что изречения чаще всего спокойный и утвердительные. Мне кажется, в этом кроется секрет их потешности.

Original size 1185x685
0

Еще, как мне казалось, секрет постиронии пацанских цитат кроется в частых повторах слов. Я решила это проверить и посмотреть, как часто в рамках одной цитаты повторяются леммы и какова доля изречений с повторами среди всего датасета. Я была удивлена, что процент оказался небольшим. Возможно, были погрешности в лемматизации, и некоторые леммы записывались не совсем корректно.

Original size 4347x563

Пацан не устает от повторов. Повторы — это бетон под ногами, по которому он идёт сквозь дымку бытия

Original size 3234x1552
Original size 4347x2519
0

Несмотря на относительно небольшой процент повторов, я все же захотела посмотреть на распределение повторов в цитатах. Для этого я сопоставила данные о повторах в каждой цитате и общем количестве лемм в каждой цитате. На графике видно, что в большинстве цитат с повторами леммы повторяются от 1 до 3 раз. Я выбрала точечный график, потому что на нем видны и выбросы — цитаты, содержащие большое количество повторов. На графике также можно оценить и длину цитат, прикинуть примерную долю повторов от всех лемм в 1 цитате.

Original size 4347x2519
0

В конце я сделала анализ N-грамм и посмотрела пары и тройки лемм, которые стоят рядом чаще всего. Это позволяет определить, какие последовательности слов встречаются наиболее часто в тексте, и выявить устойчивые фразы, идиомы или характерные обороты.

Выявление простых N-грамм дает увидеть связки слов, обусловленные грамматически. А N-граммы-коллокации позволяют увидеть смысловые, устойчивые словосочетания. Я вывела в таблицах по 10 самых распространенных биграмм и триграмм.

0
0
0
Original size 4347x563

Вывод — это не конец. Это начало того, что ты теперь знаешь

Анализ дал понять, чем живут «реальные пацаны», увидеть, что цитаты чаще всего затрагивают такие темы как «Жизнь», «Братство», «Понятия» и «Отношения». Также исследование позволяет выявить лексические, грамматические особенности построения таких цитат и их тональность. В целом, на основе проанализируемого, можно обучить модель для генерации таких цитат.

Для работы с кодом я использовала Gimini, для генерации цитат-заголовков chatGPT, для картинок — Midjourney, прикрепляла референсы в виде фотографий с демотиваторов.

Пацанские цитаты
Project created at 02.07.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more