📌 CV (변동계수, Coefficient of Variation) 개요

Data Analysis Log

📌 CV (변동계수, Coefficient of Variation) 개요

parkdongchan 2025. 4. 14. 16:43

728x90

CV(변동계수, Coefficient of Variation)는 데이터의 상대적인 변동성을 측정하는 통계 지표입니다.

평균 대비 표준편차의 크기를 나타내며, 서로 다른 단위를 가진 데이터나 규모가 다른 데이터 집단을 비교할 때 유용합니다.

✅ 1. CV 공식

변동계수(CV)는 다음 공식으로 계산됩니다.

CV=σμ×100CV = \frac{\sigma}{\mu} \times 100

σ\sigma (Standard Deviation) : 표준편차
μ\mu (Mean) : 평균
CV 값이 %로 표현되도록 100을 곱하는 경우가 일반적

✅ 2. CV의 의미

CV 값 범위	해석
CV < 10%	변동성이 낮음 (안정적 데이터)
10% ≤ CV < 30%	보통 수준의 변동성
CV ≥ 30%	변동성이 높음 (불안정한 데이터)

✔ CV가 낮을수록 데이터가 평균값에 더 밀집되어 있고, 안정적인 데이터임을 의미합니다.
✔ CV가 높을수록 데이터의 변동성이 크고, 불안정성이 높음을 의미합니다.

✅ 3. CV를 사용하는 이유

✔ 단위가 다른 데이터를 비교할 때 유용

예: 제품 A의 판매량(단위: 개) vs 제품 B의 판매금액(단위: 원) 비교
표준편차만 비교하면 단위 차이 때문에 의미가 없지만, CV를 사용하면 단위에 상관없이 상대적 변동성을 비교할 수 있음.

✔ 평균값이 다른 데이터 비교 가능

예: 두 개의 주식(하나의 평균 가격이 10,000원, 다른 하나는 100원)을 비교할 때
가격이 높은 주식은 표준편차가 더 클 가능성이 높지만, CV를 사용하면 변동성 수준을 동일한 기준으로 비교 가능.

✔ 경제학, 품질 관리, 금융 등에서 활용

주가 변동성 분석 (투자 리스크 평가)
품질 관리 (생산 제품의 균일성 평가)
의학 연구 (혈압, 혈당 등의 변동성 비교)

✅ 4. Python을 활용한 CV 계산

Python을 사용하여 변동계수를 계산하는 예제입니다.

📌 (1) 단일 데이터셋에서 CV 계산

import numpy as np 

# 예제 데이터 (주가 변동) 
data = [100, 105, 98, 102, 110, 97, 101] 

# 평균 및 표준편차 계산 
mean = np.mean(data) 
std_dev = np.std(data, ddof=1)  # ddof=1: 샘플 표준편차 

# 변동계수(CV) 계산 
cv = (std_dev / mean) * 100 

print(f"평균: {mean:.2f}") 
print(f"표준편차: {std_dev:.2f}") 
print(f"변동계수 (CV): {cv:.2f}%")

📌 해석

평균이 높아도 변동성이 크다면 CV 값이 커짐
CV가 낮으면 데이터가 평균값 근처에 모여 있음

📌 (2) 여러 개의 데이터 그룹 비교

# 여러 제품의 판매량 데이터 
product_A = [100, 105, 98, 102, 110, 97, 101] 
product_B = [200, 220, 250, 190, 180, 210, 205] 

def calculate_cv(data):
	mean = np.mean(data) 
    std_dev = np.std(data, ddof=1) 
    return (std_dev / mean) * 100 
    
cv_A = calculate_cv(product_A) 
cv_B = calculate_cv(product_B) 

print(f"제품 A 변동계수 (CV): {cv_A:.2f}%") 
print(f"제품 B 변동계수 (CV): {cv_B:.2f}%") # CV 값 비교 

if cv_A > cv_B: 
	print("제품 A가 변동성이 더 큽니다.") 
else: 
	print("제품 B가 변동성이 더 큽니다.")

📌 해석

두 제품의 판매량이 평균적으로 다르더라도 CV를 계산하면 상대적인 변동성을 비교 가능
CV 값이 더 큰 제품이 더 변동성이 크고 불안정함

✅ 5. CV의 장단점

🎯 장점

서로 다른 단위의 데이터를 비교할 수 있음
- 단순히 표준편차를 비교하는 것보다 상대적인 변동성을 평가할 수 있음.
데이터의 상대적 변동성 파악 가능
- 평균이 다른 데이터셋 간 변동성을 공정하게 비교 가능.
경제학, 금융, 품질 관리, 연구 등 다양한 분야에서 활용 가능
- 주가 변동성 비교, 다른 국가의 경제 성장 변동성 비교, 제조업 품질 평가 등

⚠️ 단점

평균이 0에 가까우면 CV 값이 왜곡됨
- 예: 평균이 2인데 표준편차가 1.5라면 CV 값이 매우 커짐.
- 평균값이 너무 작거나 0에 가까운 경우 CV 사용에 주의 필요.
정규 분포가 아닐 경우 해석이 어려울 수 있음
- CV는 정규 분포를 가정하고 해석하는 경우가 많기 때문에, 데이터가 크게 왜곡된 분포라면 적절하지 않을 수 있음.
값이 클수록 신뢰성이 떨어질 수 있음
- CV 값이 너무 크면, 데이터가 극도로 변동성이 크다는 의미이므로 신뢰성이 낮아질 수 있음.

✅ 6. CV를 사용하면 좋은 경우 vs 사용하지 말아야 할 경우

CV 사용 추천	CV 사용 주의
서로 다른 단위의 데이터 비교	평균값이 0에 가까운 경우
평균값이 다른 두 그룹 비교	데이터가 정규분포를 따르지 않는 경우
품질 관리, 투자 리스크 평가	샘플 크기가 매우 작은 경우

🎯 결론

✅ **CV(변동계수)**는 서로 다른 단위나 평균을 가진 데이터의 변동성을 비교할 때 유용한 지표입니다.
✅ 투자 리스크 평가, 품질 관리, 의료 연구 등에서 널리 사용됨
⚠️ 하지만 평균값이 너무 작거나 데이터 분포가 정규분포를 따르지 않을 경우 사용에 주의해야 함.

🚀 즉, CV는 "서로 다른 데이터의 변동성을 공정하게 비교하는 도구"로 활용된다! 🎯

728x90

'Data Analysis Log' 카테고리의 다른 글

✅ RMSE (Root Mean Squared Error, 평균 제곱근 오차)란? (0)	2025.04.16
🔥 DNN (Deep Neural Network, 심층 신경망) 개요 (0)	2025.03.19
🔥 T-검정(T-Test) T-Test, T-검정이 뭐야?????? (1)	2025.03.11
🔥 ARIMA (AutoRegressive Integrated Moving Average) 모델 개요 (1)	2025.03.10
Prophet 을 활용한 이상치 탐지 (4)	2025.03.08

현재글📌 CV (변동계수, Coefficient of Variation) 개요

Data Scientist - 박동찬

ds-park 님의 블로그 입니다.

ad optimize, 데이터 분석, 손흥민, 축구통계, 강화학습, 딥러닝, EDA, 머신러닝, Python, 이상치, XGBoost, 실시간 광고, 데이터사이언스, 파이썬, 피쳐엔지니어링, LightGBM, 이탈회원, SQL, Q러닝, q-러닝, 추천시스템, TensorFlow, 프리미어리그, data, 축구데이터, da / ds, PL, 하이퍼파라미터 튜닝, 데이터분석, keras,

Today :
Yesterday :

Data Scientist - 박동찬