[데이터분석] 스포티파이 10대 트렌드 파악 및 10대 신규 고객 유입 방안 분석
분석 주제
스포티파이 점유율 1위 유지를 위한, 10대 선호도 파악 및 10대 신규 고객 유입 방안
주제 선정 이유
10대의 구매력과 시장 내 영향력이 상승하며 10대를 미리 선점해야 하기 때문.
예시 :
- 토스의 유스카드 (10대 타겟 카드, 190만장 기록)
- 지그재그 10대 거래액 증가 (10대 타겟 프로모션 매출 상승)
- 마라탕, 탕후루 판매량 상승 등 최근 10대의 소비에 주목함
사용한 데이터
kaggle에서 공개되어 있는 spotifiy_data를 사용
https://www.kaggle.com/datasets/meeraajayakumar/spotify-user-behavior-dataset/data
Spotify User Behavior Dataset
A Comprehensive Spotify Dataset for User Analysis
www.kaggle.com
분석한 컬럼
데이터 전처리
import pandas as pd
df = pd.read_excel("Spotify_data.xlsx") #엑셀데이터 읽기
df.to_excel("Spotify_data.xlsx", index=False)
df_test = df.loc[(df['Age']=='6-12') | (df['Age']=='12-20') , ['Age', 'pod_host_preference']] #6-12세, 12-20세만 추출
df_test2 = df_test.fillna('시청안함') #결측값을 '시청안함'으로 대체
df_test2.value_counts()
데이터 내 결측치(Na)값이 141개가 있어 어떻게 처리할지 고민하던 중
- 팟캐스트를 선호하는 사람 중 선호도에 응답한 사람 108명/ null = 2
- 뮤직을 선호하는 사람 중 선호도에 응답한 사람 271/ null = 139
콘텐츠 선호도 (팟캐스트/ 뮤직) 컬럼을 필터링 해 이런 값을 얻었다.
일단, 약 400개의 값이 있는 데이터에서 141개를 뺀다는 건 말이 안되기 때문에 결측치 삭제는 고려하지 않았고
위의 데이터를 가지고 추론해보았을 때 139명은 팟캐스트를 보지 않는 사람들이기 때문에 선호도를 선택할 수 없다는 결론을 내렸다.
그렇기 때문에 결측치를 '(팟캐스트) 시청안함'으로 대체했다.
데이터 시각화
plt.rcParams['font.family'] ='AppleGothic'
plt.rcParams['axes.unicode_minus'] =False
ratio = ['26', '24', '22', '10']
labels = ['둘 다 선호', '일반인', '유명인', '팟캐스트 이용 X']
colors = sns.color_palette('hls',len(labels))
plt.pie(ratio, labels = labels,
autopct = '%.1f%%',
startangle = 90,
counterclock = False,
wedgeprops = {'width' : 0.6, 'edgecolor':'black', 'linewidth':1},
colors = colors)
plt.title('팟캐스트 선호 mc')
plt.legend(loc= (0.8, 0.8), title = '팟캐스트 선호 mc')
plt.show()
분석 결과
1. 팟캐스트 MC 현상 유지
10대가 선호하는 MC는 유명인(26.8%), 일반인(29.3%)의 비율이 비슷하며 유명인, 일반인 둘 다 선호하는 비율(31.7%)가 가장 높음을 알 수 있다. 그러므로 변화를 주기보단 현재의 비율을 유지한다.
2. 팟캐스트 편성 시 출연진은 골고루
유명인과 일반인이 섞인 콘텐츠를 제작해 10대들이 원하는 콘텐츠를 편성한다면 팟캐스트 이용자 유입을 더욱 높일 수 있을 것이다.
전체 분석 결과
이렇게 약 일주일 간의 첫 데이터분석 프로젝트가 끝이 났다.
vscode를 사용해 데이터 전처리를 할 땐 멘붕이었는데 (여전히 어려운 파이썬..)
그래도 파이차트 만들기는 생각보다 재밌었다. 바로바로 보여서 그런가?
데이터 값을 가지고 어떻게 활용할지 고민하고 해석하는 게 굉장히 재밌었다.
거기에 인사이트 도출과 앞으로의 방향성까지 이야기하는 것 또한 재밌었다.
아직은 툴을 다루는데 익숙치 않기 때문에 어려운 것이라 생각하며
데이터분석가에 조금 더 가까워진 기분이 든다.