<aside> 💡 주제
</aside>
<aside> 💡 데이터 분석 목표
유튜브에서 사람들이 많이 보는 영상들의 카테고리, 제목, 언어, 구독자수, 영상 길이, 좋아요 수, 싫어요 수 등을 분석한다. 이를 통하여 가장 많은 수익을 창출할 수 있는 영상을 제작해 수익을 올려보자.
</aside>
<aside> 1️⃣ 1.1 데이터 수집
2023 글로벌 유튜브 통계
https://www.kaggle.com/datasets/nelgiriyewithana/global-youtube-statistics-2023/data
가장 많이 구독한 유튜브 채널
https://www.kaggle.com/datasets/surajjha101/top-youtube-channels-data
youtube 인기 동영상 데이터 세트
https://www.kaggle.com/datasets/rsrishav/youtube-trending-video-dataset/data
실시간 youtuber 순위
https://playboard.co/youtube-ranking/most-popular-all-channels-in-worldwide-daily
</aside>
<aside> 2️⃣ 2.1 데이터 전처리 및 분석 목표
</aside>
<aside> 💡 데이터 전처리 및 분석
</aside>
<aside> 2️⃣ 전처리 과정 - OBJECT DATA NULL값
<aside> ✅ 유튜버 검색 사이트 사용 ▶PLAYBOARD, VLING, SOCIELUS
</aside>
<aside> ✅ COUNTRY, CATEGORY, YOUTUBER 값 보완
</aside>
</aside>
<aside> 2️⃣ 전처리 과정 - NUMERICAL DATA NULL값
linear interpolation 사용
선형 보간
: 2개의 인접한 관측값을 직선으로 연결하여 격자점 사이의 data point의 값을 구함
</aside>
<aside> 3️⃣ 데이터 분석 - TOP 1000 video (국가 분포)
<aside> ➡️ 미국 → 인도 → 브라질 → 영국 순으로 많음
</aside>
<aside> ✅ 사용 언어를 보면 영어권 나라가 가장 많고 그 다음 인도, 스페인어 순으로 많이 사용하기 때문에 영어로 컨텐츠를 하는 것이 유리할 것이다.
</aside>
<aside> ❗ 중국은 자체 동영상 사이트인 iQiyi 를 사용하기 때문에 인구 수는 많지만 통계에서 제외되었다.
</aside>
</aside>
<aside> 3️⃣ 데이터 분석 - TOP 1000 video (카테고리 분포)
<aside> ➡️ Entertainment → Music → People&Blogs 순으로 많음
</aside>
<aside> ✅ Entertainment와 Music이 독보적으로 점유율이 많기 때문에 예능 혹은 음악 관련 컨텐츠를 하는 것이 유리 할 것이다.
</aside>
</aside>
<aside> 3️⃣ 데이터 분석 - 구독자 수와 조회수의 상관 관계
</aside>
<aside> ➡️ 모든 관측값들이 구독자 수에 대한 조회수가 증가하는 것은 아니지만, 어느 정도 선형 관계를 보이는 것을 알 수 있다. → 따라서 구독자를 많이 확보하는 것이 조회수를 높이는 데 유리 할 것이다.
</aside>
<aside> 3️⃣ 데이터 분석 - 상위 유튜버가 영상 제목에 사용하는 단어 빈도
<aside> 1️⃣ Kids, nursery, family, nastya 어린이, 혹은 가족과 관련된 단어들이 제목에 빈번하게 노출되었다.
</aside>
<aside> 2️⃣ TV, news, show, official ’공식 채널’이라는 단어가 제목에 빈번하게 노출되었다.
</aside>
<aside> 3️⃣ Music, songs, rhymes 음악과 관련된 컨텐츠도 많은 빈도로 사용되었다.
</aside>
<aside> 4️⃣ India 인도라는 단어가 제목에 자주 노출되었다.
</aside>
<aside> ✅ 아이들, 가족, 공식, 00TV, 음악, 인도 등의 단어가 들어간 제목의 영상이 대체적으로 조회수가 높다.
</aside>
</aside>