분류 전체보기
-
ML) 과적합과 데이터 분리(hold out)카테고리 없음 2023. 4. 17. 01:29
과적합: 모델이 학습 데이터에만 과도하게 최적화된 현상 -> 내가 가진 데이터에 너무 최적화되어 있어 일반적인 데이터에서 예측 성능이 과하게 떨어짐 🔔 지도학습: 학습 대상이 되는 데이터에 정답(label)을 붙여서 학습시키고, 모델을 얻어서 완전히 새로운 데이터에 모델을 사용해서 '답'을 얻고자 하는 것 (머신러닝의 일반적 절차) 🔔iris의 품종을 분류하는 결정나무 모델이 어떻게 데이터를 분류했는지 확인 경계면은 올바른 것인지 / 내가 가진 데이터를 벗어나서 일반화할 수 있는지 -> 얻은 데이터는 유한, 내가 얻은 데이터 이용해서 일반화 추구하게 됨 -> 복잡한 경계면은 결국 모델의 성능 저하 유발 = 과적합의 문제 데이터 분리: 과적합 여부 판정 확보된 데이터 중에서 모델학습에 사용하지 않고 빼둔 ..
-
ML) 머신러닝 개요카테고리 없음 2023. 4. 12. 23:40
🔔 머신러닝: 명시적으로 프로그래밍 하지 않고도 컴퓨터에 학습할 수 있는 능력을 부여하는 학문 (아더 사뮤엘) 명시적인 프로그램에 의해서가 아니라, 주어진 데이터를 통해 규칙을 찾는 것 🔔 알고리즘: 현재 상황에서는 이것이 최선이라는 근거 (이런 방향, 저런 방향으로 진행하였을 때 각각의 차이점에 대한 정량적 수치 제시) sepcies 0 은 명확히 구분 가능 -> 1, 2를 어떻게 구분할 것인가 Decision Tree의 분할기준(Split Criterion) 정보획득: 정보의 가치를 반환하는 데 발생하는 사건의 확률이 작을수록 정보의 가치는 커진다 정보이득: 어떤 속성을 선택함으로 인해 데이터를 더 잘 구분하게 되는 것 정보 엔트로피(클로드 섀넌): 무질서도(disorder), 불확실성(uncerta..
-
태블로 커리큘럼기타 2023. 4. 10. 00:59
Tableau for Business Intelligenc 1. 기본차트 만들기 - 테이블/막대/라인/파이/트리맵/누적막대 2. 분산형차트 3. 이중축 차트 만들기 - 콤비네이션/라인+영역/응용차트/도넛 4. 다양한 기능 활용 - 그룹/집합/결합된 집합/계층/드릴다운 5. 맵차트 6.워드 클라우드, 달력형 히트맵 7. 대시보드 응용: 동작 - 필터, 하이라이트, 시트이동, 매개변수 변경, 집합 값 변경, URL, 개체 8. 스토리 Tableau for Business Analytics 1. 퀵테이블 계산 - 누계/차이/구성비율/순위/비율차이/YoY성장률/백분위수/이동평균/YTD총계, 연평균성장률(CAGR) 2. 계산된 필드 - 연산자/논리함수/매개변수(범위형,목록형,날짜형,복합매개변수) 3. PRIMAR..
-
통계) 모집단과 표본분포통계 2023. 4. 5. 18:03
표본추출: 모집단으로 부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함 -복원추출: 모집단에서 데이터 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법(동일한 표본이 추출될 수 있음 -비복원추출; 모집단에서 데이터 추출할 때 하나 추출하고 다시 넣지 않고 추출하는 방법 🔔 random sampling: 모집단에서 데이터 추출할 때 중요한 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출 불균형 데이터(imbalanced data)의 문제 예측모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분, 그런데 예측 대상이 전체 대비 아주 낮다면 모형의 성능은 괜찮을까? (ex.신용 평가 모형 개발, 제조..
-
통계) 연속형 확률 분포통계 2023. 4. 5. 01:38
확률밀도함수(PDF) 누적분포함수(CDF): 확률밀도함수를 적분하면 누적분포함수가 됨 🔔 누적분포함수의 성질 1. 0 ≤ F(x) ≤ 1 2. 만약 b ≥ a, F(b) ≥ F(a) 3. F(b) - F(a) = P [ a ≤ X ≤ b ] 균일분포(uniform distribution): 확률변수 X가 a와 b 사이에서 아래와 같은 확률 밀도 함수를 가짐 cdf) 정규 분포(normal distribution) 확률 밀도 함수는 확률 변수 X가 평균이 g 이고, 분산이 ù인 정규분포를 따를 때 아래와 같음 🔔 파라메터의 따른 정규분포 모양 비교 🔔 정규분포의 성질 🔔 표준 정규 분포(standard normal distribution) 평균 μ이 0 이고 표준편차 σ가 1 로 규격화시킨 것 (Z ~ ..
-
통계) 이산형 확률 분포통계 2023. 3. 29. 15:43
확률 분포(probability distribution): 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수 🔔이산형 확률분포: 확률변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포 예시) 주사위 굴리기 🔔베르누이 시행(Bernoulli trial): 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행 예시) 🔔이항분포(Binomial distribution): 연속적인 베르누이 시행을 거처 나타나는 확률 분포임 - 서로 독립인 베르누이 시행을 n번 반복해서 실행 했을 때, 성공한 횟수 X의 확률 분포 예시) 예시) 🔔포아송 분포(Poisson distribution): 어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포 (e..
-
통계) 확률통계 2023. 3. 29. 14:42
확률: 모든 경우의 수에 대한 특정 사건이 발생하는 비율 🔔 확률의 고전적 정의 어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 비이다. 단, 이는 어떠한 사건도 다른 사건들보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립한다. (확률의 최초의 정의는 수학자 라플라스의 논문 Théorie analytique des probabilités) 표본공간: 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합 🔔 통계적 확률 정의 어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N 이고, 사건 A가 일어날 상대도수라고 함. N이 무한히 커지면 상대도수는 일정한 수로 수렴..
-
통계) 데이터의 이해통계 2023. 3. 29. 13:52
1. 데이터와 그래프 변수: 통계학에서 조사 목적에 따라 관측된 자료값 / 해당 변수에 대해 관측된 값이 자료(Data) EDA(Exploratory Data Analysis): 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 방법 - 데이터 분석 프로젝트 초기에 가설 수립/ 적절 모델 및 기법 선정하기 위해 사용 - 변수간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가 - 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용 시간 시각화: 막대그래프, 누적 막대그래프, 점그래프 분포 시각화: 파이차트, 도넛아트, 트리맥, 누적 연속 그래프 관계 시각화: 스캐터플롯, 버블차트, 히스토그램 비교 시각화: 히트맵, 스타차트, 평행좌표계, 다차원척도법 공..