'Data Analysis Log' 카테고리의 글 목록

728x90

Data Analysis Log 6

✅ RMSE (Root Mean Squared Error, 평균 제곱근 오차)란?

RMSE는 예측값과 실제값 간의 차이를 제곱한 뒤 평균을 내고, 그 평균의 제곱근을 취한 값입니다.예측 모델의 성능을 평가할 때 가장 널리 쓰이는 지표 중 하나로, 예측 오차의 크기를 직관적으로 나타냅니다.✅ 1. RMSE 수✅ 2. RMSE의 특징항목설명단위실제값과 동일한 단위 (ex: 가격, 온도, 거리 등)오차 민감도큰 오차에 매우 민감 → 이상값(outlier)에 영향을 많이 받음용도회귀 문제에서 모델 성능을 평가할 때 사용낮을수록 좋음RMSE는 0에 가까울수록 예측이 정확함을 의미✅ 3. RMSE vs MAE 비교항목RMSE (Root Mean Squared Error)MAE (Mean Absolute Error)계산 방식제곱한 뒤 평균 → 루트절댓값의 평균이상값 영향민감 (큰 오차에 더 큰 패..

Data Analysis Log 2025.04.16

📌 CV (변동계수, Coefficient of Variation) 개요

CV(변동계수, Coefficient of Variation)는 데이터의 상대적인 변동성을 측정하는 통계 지표입니다.평균 대비 표준편차의 크기를 나타내며, 서로 다른 단위를 가진 데이터나 규모가 다른 데이터 집단을 비교할 때 유용합니다.✅ 1. CV 공식변동계수(CV)는 다음 공식으로 계산됩니다. CV=σμ×100CV = \frac{\sigma}{\mu} \times 100CV=μσ×100σ\sigmaσ (Standard Deviation) : 표준편차μ\muμ (Mean) : 평균CV 값이 %로 표현되도록 100을 곱하는 경우가 일반적✅ 2. CV의 의미CV 값 범위해석CV 변동성이 낮음 (안정적 데이터)10% ≤ CV 보통 수준의 변동성CV ≥ 30%변동성이 높음 (불안정한 데이터)✔ CV가 낮을수..

Data Analysis Log 2025.04.14

🔥 DNN (Deep Neural Network, 심층 신경망) 개요

DNN(Deep Neural Network, 심층 신경망)은 다층 퍼셉트론(MLP, Multi-Layer Perceptron)을 확장한 형태로, 여러 개의 은닉층(hidden layers)을 포함하는 인공 신경망입니다. 딥러닝(Deep Learning)의 핵심 구조로, 이미지 인식, 자연어 처리, 추천 시스템 등 다양한 분야에서 사용됩니다.✅ 1. DNN의 기본 구조DNN은 다음과 같은 층(Layers)으로 구성됩니다.입력층(Input Layer)데이터를 입력받는 층예: 이미지 데이터(픽셀 값), 텍스트 데이터(단어 벡터)은닉층(Hidden Layers)입력 데이터를 변환하고 패턴을 학습하는 층**비선형 활성화 함수 (ReLU, Sigmoid 등)**을 적용하여 복잡한 관계를 모델링층이 많아질수록 모델이..

Data Analysis Log 2025.03.19

🔥 T-검정(T-Test) T-Test, T-검정이 뭐야??????

T-검정(T-test)은 두 개의 그룹 간 평균의 차이가 통계적으로 유의미한지 검정하는 통계 기법입니다. 주로 두 그룹 간 차이를 비교하는 데 사용되며, 샘플의 크기가 작을 때도 효과적으로 활용할 수 있습니다.✅ 1. T-검정의 종류T-검정에는 3가지 주요 유형이 있습니다:유형설명사용 사례1. 독립 표본 T-검정 (Independent T-test)서로 다른 두 그룹의 평균 비교남성과 여성의 평균 시험 점수 비교2. 대응 표본 T-검정 (Paired T-test)같은 집단의 전후 변화 비교다이어트 전후 체중 변화 분석3. 단일 표본 T-검정 (One-sample T-test)모집단 평균과 샘플 평균 비교특정 반의 평균 성적이 전국 평균보다 높은지 검정✅ 2. T-검정의 가정(Assumptions)T-검정..

Data Analysis Log 2025.03.11

🔥 ARIMA (AutoRegressive Integrated Moving Average) 모델 개요

ARIMA(자동 회귀 누적 이동 평균, AutoRegressive Integrated Moving Average)는 시계열 데이터 예측에 널리 사용되는 통계적 모델입니다. 주로 트렌드와 패턴을 분석하여 미래 값을 예측하는 데 사용됩니다.✅ 1. ARIMA 모델의 구성 요소ARIMA 모델은 3가지 주요 요소로 구성됩니다:AR (AutoRegressive, 자기회귀) - p과거 데이터(시간 t 이전의 값)를 사용하여 현재 값을 예측하는 모델예: y(t) = ϕ₁ y(t-1) + ϕ₂ y(t-2) + ... + ε(t)과거 값이 현재 값에 영향을 미치는 정도를 조정하는 p (시차 개수) 결정I (Integrated, 차분) - d데이터가 비정상성(Non-stationary, 시간에 따라 평균과 분산이 변하는 ..

Data Analysis Log 2025.03.10

Prophet 을 활용한 이상치 탐지

🚀 Prophet 모델을 활용한 이상치 탐지Prophet 모델은 페이스북(Facebook, 현재 Meta)에서 개발한 시계열 예측 모델로, 주로 트렌드 분석 및 미래 값을 예측하는 데 사용됩니다. 하지만 이 모델을 이상치 탐지에도 활용할 수 있습니다.핵심 아이디어:Prophet 모델로 정상적인 시계열 패턴을 학습하고, 예측한 값과 실제 값의 차이가 큰 경우를 이상치로 간주!✅ 1. Prophet을 이상치 탐지에 활용하는 이유Prophet 모델은 시계열의 추세(Trend), 계절성(Seasonality), 주기성(Holidays)을 효과적으로 반영하여 정상적인 데이터를 예측할 수 있기 때문에 정상 패턴과 벗어난 이상값을 탐지하는 데 유용합니다.📌 Prophet 기반 이상치 탐지 방식Prophet 모델을..

Data Analysis Log 2025.03.08

Data Scientist - 박동찬

ds-park 님의 블로그 입니다.

데이터분석, 축구데이터, 데이터 분석, data, 실시간 광고, 파이썬, 머신러닝, 데이터사이언스, 추천시스템, Q러닝, keras, 하이퍼파라미터 튜닝, da / ds, SQL, 이상치, 축구통계, ad optimize, 프리미어리그, LightGBM, TensorFlow, 강화학습, PL, 피쳐엔지니어링, Python, 딥러닝, EDA, XGBoost, 이탈회원, 손흥민, q-러닝,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Data Analysis Log 6

티스토리툴바