스터디 10

[아티클 스터디] 머신러닝 10가지 알고리즘2 (랜덤 포레스트, XG부스트, 라이트GBM, K-평균 군집화, 주성분 분석)

https://yozm.wishket.com/magazine/detail/1931/ 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현yozm.wishket.com 6. 랜덤 포레스트- 랜덤으로 생성된 무수히 많은 트리를 이용해 예측하는 모델이다.- 여러 모델을 활용해 하나의 모델을 이루는 기법을 앙상블이라고 한다.- 지도학습/ 회귀, 분류/ 일반적인 데이터를 사용한다.- 트리 기반 모델 중 가장 보편적인 방법이다. 장점:- 아웃라이어에 거의 영향을 받지 않는다.- 선형, 비선형 데이..

스터디 2024.08.20

[아티클 스터디] 머신러닝 10가지 알고리즘1 (선형, 로지스틱, knn, 나이브베이즈, 의사결정나무)

https://yozm.wishket.com/magazine/detail/1931/ 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현yozm.wishket.com  1. 선형 회귀- 연속된 변수를 예측하는 최적의 직선을 찾는 알고리즘이다.- 지도학습/ 회귀/ 종속변수와 독립변수가 선형관계에 있는 데이터에 사용된다.- 연속된 변수를 예측하는데 좋다. (BMI, 매출액, 전력 사용량 등) 장점 :- 모델이 간단해 구현과 해석이 쉽다.- 모델링하는데 시간이 오래 걸리지 않는다. 단점 : ..

스터디 2024.08.20

[통계 스터디] 카이제곱 검정, 제 1종 오류와 2종 오류

카이제곱 검정(교차 분석)카이제곱 분포에 기초한 통계적 방법이다.관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용되는 검정방법이다.범주형 자료(명목척도, 서열척도)간의 관계를 알아보고자 할 때 사용된다.적합도 검정, 독립성 검정, 동질성 검정에 사용된다. 교차분석표두 범주형 변수를 교차해 데이터의 빈도를 표 형태로 나타낸 것이다.두 변수를 분류한 분할표는 이차원 분할표, 세 변수를 이용한 경우 삼차원 분할표라고 한다. 일반적인 분할표 형태독립변수(x)종속변수(y)행합계               열합계     예를 들어, 지역별 전자제품 브랜드 선호도를 교차분석표로 작성한다고 가정해보면 a사b사c사계한국305515100미국406020120유럽40351590계11015050300->..

스터디 2024.08.14

[아티클 스터디] 머신러닝이란?

지난주부터 머신러닝 주차가 시작됐다.그럼으로 이번 아티클은 '머신러닝'에 관한 아티클을 정리해보기로 했다.아직은 어려운 개념이지만 공부할 수록 괜찮아질 거란 희망을 가져보며오늘의 아티클 스터디 시작! '머신러닝'이란?컴퓨터 시스템이 데이터를 분석하고 그 데이터에서 패턴을 인식해 예측하거나 결정을 내리는 능력을 갖게 하는 인공지능 분야의 하나이다.컴퓨터는 인간의 지시 없이 연산 능력을 사용하여 스스로 학습한다.  머신러닝의 종류1. 지도학습지도학습은 정답을 알려주고 학습하는 방법이다. 2. 비지도학습정답을 알려주지 않고 데이터만으로 학습하는 방법이다.데이터의 내제된 특징을 스스로 파악하는 것이 중요하다.대표적인 방법으로 군집화가 있다. 3. 강화학습일단 해보면서 경험을 통해 실력을 키워나가는 방법이다.행동..

스터디 2024.08.13

[통계 스터디] 정규분포, 스튜던트 t분포

1. 정규분포 (=가우스분포)- 연속 확률 분포의 하나이다.- 평균값을 중심으로 좌우대칭인 종 모양을 이룬다.- 평균값에 가장 많은 데이터가 분포되어 있고 평균과 멀어질수록 데이터 분포가 적어진다.- 현실에 있는 많은 데이터들이 정규분포를 따른다. (예 : 한국인의 키 분포, 수능 점수의 분포 등)  💡확률 분포확률변수 X가 특정한 값을 가질 확률을 나타내는 분포이다.💡연속확률분포셀 수 없는 연속적인 값을 가지는 분포이다.  위 정규분포를 분석해 보면- 파랑, 빨강, 노랑은 평균 0인 정규분포, 초록은 평균이 -2인 정규분포임을 알 수 있다.- 노랑색 정규분포의 분산이 가장 크다. 왜냐하면 분산이 클수록 넓게 분포해 있기 때문이다.- 빨간색 정규분포는 평균 0, 분산 1을 갖는 표준 정규분포이다.- ..

스터디 2024.08.08

[아티클 스터디] 빅데이터 시대, 진짜 데이터 활용 능력이란? (데이터 문해력)

오늘의 아티클 스터디의 주제는 도서 이다.'문해력'이란 '글을 읽고 이해하는 능력'을 의미하는데데이터도 글과 마찬가지로 읽고 이해해야 활용할 수 있다.이 책은 데이터 문해력이 왜 필요한지와 더불어 분석 사례들이 많기 때문에어떻게 해야 올바르게 데이터를 이해하고 사용할 수 있을지에 대해 알기 좋다. 데이터 분석가를 희망하거나 어떠한 데이터를 다뤄야 하는입문자에게 추천하고 싶은 책!  데이터를 활용해 문제를 해결하거나 상대에게 설득력 있는 제안과 프레젠테이션을 하고 싶다.그래서 뭔가를 해보지만, 결국 데이터를 가공한 표나 그래프를 쳐다보며대체 여기서 어떤 것을 말할 수 있을지? 무슨 말을 하면 좋을지?의문만 생길 뿐이다.데이터 문해력 6p   나 또한 과거 google ads를 통해 동영상 광고를 집행한 ..

스터디 2024.07.23

[아티클 스터디] 데이터 해석 시 주의사항 (그 데이터는 잘못 해석 되었습니다)

오늘의 아티클 스터디 내용은 '그 데이터는 잘못 해석 되었습니다' !데이터 해석 과정에서의 오류에 관한 이야기이다.실제로 데이터 분석을 하게 됐을 때 참고할만한 좋은 자료라 생각된다. https://yozm.wishket.com/magazine/detail/1816/ 그 데이터는 잘못 해석되었습니다 | 요즘IT무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같습니다. 하지만 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있습니다. 특히 데이터를 통한 의사결정을 내릴 때, 가장yozm.wishket.com 아티클을 요약해 보면데이터가 있어도 데이터 해석에 오류가 있다면 올바른 의사결정을 하기 어려워진다. 이런 상황을 방지하기 위해 데이터를 제대로 해석하는 방법을 알고 올바른 의사결정을 내..

스터디 2024.07.18

[아티클 스터디] 좋은 의사 결정을 돕는 일 (데이터 분석가가 되어보니 중요한 것들)

오늘의 아티클은 '데이터 분석가가 되어보니 중요한 것들'이다.데이터 분석가가 좋은 건 알겠는데 '왜? 좋은걸까?'에 대한상세한 답변을 들을 수 있어 유익했던 이번 아티클!직무를 결정하기 이전 읽어본다면 더욱 더 선택에 확신을 주지 않을까란 생각이 든다. https://yozm.wishket.com/magazine/detail/1863/ 데이터 분석가가 되어보니 중요한 것들 | 요즘IT개발자, 디자이너, 기획자, HR, 오퍼레이션 등 대부분의 직무에서 우리가 일하기 전 예상했던 업무와 실제 업무에는 차이점이 존재합니다. 비즈니스는 빠르게 변화하기 때문에, 학생 때 배운 교yozm.wishket.com 아티클을 요약해 보면✅ 진짜 데이터 분석가는?: '데이터에 기반'해 '성공 확률이 높은 의사결정'을 '지속..

스터디 2024.07.16

[아티클 스터디] 성공적인 비즈니스를 위한 방법 (데이터 기반 의사결정)

오늘의 아티클 스터디 주제는 '데이터 기반 의사결정의 장점' !데이터를 기반으로 의사결정을 했을 때 어떤 장단점이 있고앞으로 어떤식의 의사결정을 해야할지에 대해팀원들과 토론할 수 있는 유익한 시간이었다😀 https://yozm.wishket.com/magazine/detail/1051/ 데이터 기반 의사결정의 장점 | 요즘IT데이터 기반 의사결정은 의사결정을 내리기 전, 데이터를 활용해서 이대로 진행해도 무리가 없는지 체크하여 행동 방침을 승인하는 과정을 의미합니다. 데이터 기반의 의사결정은 분명 수많은yozm.wishket.com 아티클을 요약해 보면데이터 기반의 의사결정이란, 데이터를 활용해 행동 방침을 승인하는 과정을 의미한다. 직관이 아닌 데이터에 기반해야 하는 이유는 직관적 결정 능력은 대단할..

스터디 2024.07.11

[아티클 스터디] 우리가 보는 데이터는 정말 객관적이고 공정할까?

오늘 아티클 스터디는 '데이터 속 거짓말 발견하기'라는 아티클을 주제로 이야기를 나눠봤다.제목부터 꽤나 흥미로운 주제라는 생각이 들었고 읽으면서 다양한 방식으로 사람들을 속여왔구나(?) 싶었다.이 아티클의 주 독자가 데이터 소비자층이길 바라며 많은 이들이 이 아티클을 읽고더이상 데이터에 속지 않았으면 좋겠다는 바람이다. https://yozm.wishket.com/magazine/detail/1821/ 데이터 시각화 101: ③데이터 속 거짓말 발견하기 | 요즘IT간혹 직관적으로 이해된 시각화가 부정확한 정보를 전달하기도 하고, 시각적으로 오해를 불러일으키기도 합니다. 그 때문에 우리는 이러한 문제점이 왜 일어나는지 이해하고, 데이터 시각화yozm.wishket.com 아티클을 요약해 보면 시각화 한 정..

스터디 2024.07.04