machine learning
데이터 정제
문과 열등생
2024. 2. 25. 16:16
- 결측치 확인
- 결측치 제거, 결측치 대체
- 이상치 탐지 및 처리
- 중복 데이터 탐지 및 제거
from sklearn.impute import SimpleImputer
params = {"strategy" : ["mean", "median", "most_frequent", "constant"],
"fill_value" : , #strategy == constant 인 경우에만 사용 (대체할 값)
"missing_value" : np.nan(default), # 결측치를 식별하는데 사용할 값
"add_indicator" : [True or False], # True일 때 대체된 결측치의 위치를 나타내는 지표열 생성
"copy" : [True or False], # inplace와 같음 (default = True)
"verbose" : [0 or 1] # 0 : 출력메시지 X, 1 : 출력메시지 O}
imputer = SimpleImputer(**params) # Imputer 객체 생성
df = imputer.fit_trainsform(df) # 생성한 객체의 적용