리스트 : 콘텐츠가 있으면 최근 5건을 불러옵니다.
-
ML) 과적합과 데이터 분리(hold out)카테고리 없음 2023.04.17 01:29
과적합: 모델이 학습 데이터에만 과도하게 최적화된 현상 -> 내가 가진 데이터에 너무 최적화되어 있어 일반적인 데이터에서 예측 성능이 과하게 떨어짐 🔔 지도학습: 학습 대상이 되는 데이터에 정답(label)을 붙여서 학습시키고, 모델을 얻어서 완전히 새로운 데이터에 모델을 사용해서 '답'을 얻고자 하는 것 (머신러닝의 일반적 절차) 🔔iris의 품종을 분류하는 결정나무 모델이 어떻게 데이터를 분류했는지 확인 경계면은 올바른 것인지 / 내가 가진 데이터를 벗어나서 일반화할 수 있는지 -> 얻은 데이터는 유한, 내가 얻은 데이터 이용해서 일반화 추구하게 됨 -> 복잡한 경계면은 결국 모델의 성능 저하 유발 = 과적합의 문제 데이터 분리: 과적합 여부 판정 확보된 데이터 중에서 모델학습에 사용하지 않고 빼둔 ..
-
ML) 머신러닝 개요카테고리 없음 2023.04.12 23:40
🔔 머신러닝: 명시적으로 프로그래밍 하지 않고도 컴퓨터에 학습할 수 있는 능력을 부여하는 학문 (아더 사뮤엘) 명시적인 프로그램에 의해서가 아니라, 주어진 데이터를 통해 규칙을 찾는 것 🔔 알고리즘: 현재 상황에서는 이것이 최선이라는 근거 (이런 방향, 저런 방향으로 진행하였을 때 각각의 차이점에 대한 정량적 수치 제시) sepcies 0 은 명확히 구분 가능 -> 1, 2를 어떻게 구분할 것인가 Decision Tree의 분할기준(Split Criterion) 정보획득: 정보의 가치를 반환하는 데 발생하는 사건의 확률이 작을수록 정보의 가치는 커진다 정보이득: 어떤 속성을 선택함으로 인해 데이터를 더 잘 구분하게 되는 것 정보 엔트로피(클로드 섀넌): 무질서도(disorder), 불확실성(uncerta..
-
태블로 커리큘럼기타 2023.04.10 00:59
Tableau for Business Intelligenc 1. 기본차트 만들기 - 테이블/막대/라인/파이/트리맵/누적막대 2. 분산형차트 3. 이중축 차트 만들기 - 콤비네이션/라인+영역/응용차트/도넛 4. 다양한 기능 활용 - 그룹/집합/결합된 집합/계층/드릴다운 5. 맵차트 6.워드 클라우드, 달력형 히트맵 7. 대시보드 응용: 동작 - 필터, 하이라이트, 시트이동, 매개변수 변경, 집합 값 변경, URL, 개체 8. 스토리 Tableau for Business Analytics 1. 퀵테이블 계산 - 누계/차이/구성비율/순위/비율차이/YoY성장률/백분위수/이동평균/YTD총계, 연평균성장률(CAGR) 2. 계산된 필드 - 연산자/논리함수/매개변수(범위형,목록형,날짜형,복합매개변수) 3. PRIMAR..
-
통계) 모집단과 표본분포통계 2023.04.05 18:03
표본추출: 모집단으로 부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함 -복원추출: 모집단에서 데이터 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법(동일한 표본이 추출될 수 있음 -비복원추출; 모집단에서 데이터 추출할 때 하나 추출하고 다시 넣지 않고 추출하는 방법 🔔 random sampling: 모집단에서 데이터 추출할 때 중요한 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출 불균형 데이터(imbalanced data)의 문제 예측모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분, 그런데 예측 대상이 전체 대비 아주 낮다면 모형의 성능은 괜찮을까? (ex.신용 평가 모형 개발, 제조..
-
통계) 연속형 확률 분포통계 2023.04.05 01:38
확률밀도함수(PDF) 누적분포함수(CDF): 확률밀도함수를 적분하면 누적분포함수가 됨 🔔 누적분포함수의 성질 1. 0 ≤ F(x) ≤ 1 2. 만약 b ≥ a, F(b) ≥ F(a) 3. F(b) - F(a) = P [ a ≤ X ≤ b ] 균일분포(uniform distribution): 확률변수 X가 a와 b 사이에서 아래와 같은 확률 밀도 함수를 가짐 cdf) 정규 분포(normal distribution) 확률 밀도 함수는 확률 변수 X가 평균이 g 이고, 분산이 ù인 정규분포를 따를 때 아래와 같음 🔔 파라메터의 따른 정규분포 모양 비교 🔔 정규분포의 성질 🔔 표준 정규 분포(standard normal distribution) 평균 μ이 0 이고 표준편차 σ가 1 로 규격화시킨 것 (Z ~ ..