C++에서 이진수의 비트 수를 세는 방법
2025/01/13
Jinsoolve.
Categories
Tags
1월 안에는 꼭...
About
표준화
1ex = np.array([0, 1, 2, 3, 4, 5]) 2 3print('표준화:', (ex - ex.mean()) / ex.std())
평균=0, 분산=1로 만든다.
MinMaxScaler()
1from sklearn.preprocessing import MinMaxScaler 2 3mms = MinMaxScaler() 4X_train_norm = mms.fit_transform(X_train) 5X_test_norm = mms.transform(X_test)
정해진 범위의 값이 필요할 때 유용하게 사용된다.
표준화는 이상치에 덜 민감한 반면,
최소-최대 스케일 변환은 이상치 정보가 유지된다.
StandardScaler()
sklearn으로 표준화함수를 사용할 수 있다.
1from sklearn.preprocessing import StandardScaler 2 3stdsc = StandardScaler() 4X_train_std = stdsc.fit_transform(X_train) 5X_test_std = stdsc.transform(X_test)
RobustScaler()
이상치가 많은 작은 데이터셋을 다룰 때 좋다.
혹은 과대적합되기 쉽다면 이 scaler가 좋다.
RobustScaler는 특성 열마다 독립적으로 작용하며 중간 값을 뺀 다음 25백분위수와 75백분위수를 사용해서 데이터셋의 스케일을 조정한다.
1from sklearn.preprocessing import RobustScaler 2rbs = RobustScaler() 3X_train_robust = rbs.fit_transform(X_train) 4X_test_robust = rbs.fit_transform(X_test)
MaxAbsScaler()
각 특성별로 데이터를 최대 절댓값으로 나눈다. 각 특성의 최대값을 1로 스케일링한다.
1from sklearn.preprocessing import MaxAbsScaler 2mas = MaxAbsScaler() 3X_train_maxabs = mas.fit_transform(X_train) 4X_test_maxabs = mas.fit_transform(X_test)
Normalizer()
특성이 아니라 샘플 별로 정규화시킨다.
1from sklearn.preprocessing import Normalizer 2 3nrm = Normalizer() 4X_train_l2 = nrm.fit_transform(X_train)
2025/01/13
2025/01/13
선형 회귀 모델에 대해 알아보자. 보스턴 집 가격 예측 문제를 예시로 들어서 설명하겠다.
2025/01/09
레이블이 없는 데이터들을 분석하여 비슷한 데이터들끼리 그룹으로 묶을 것이다.이를 군집으로 묶는다하여 클러스터링(clustering)이라 한다. - k-평균 알고리즘을 이용하여 클러스터 중심 찾기- 상향식 방법으로 계층적 군집 트리 만들기- 밀집도 기반의 군집 알고리즘을 사용하여 임의 모야을 가진 대상 구분하기
2025/01/09