홈>
다음 간단한 주어진 데이터 셋
X
의 특이 치를 탐지하는 IsolationForest 알고리즘
와이즈 비츠
샘플과
20K
기능, 나는 다음을 실행
16
결과를 얻습니다 :
train_X, tesy_X, train_y, test_y = train_test_split(X, y, train_size=.8)
clf = IsolationForest()
clf.fit(X) # Notice I am using the entire dataset X when fitting!!
print (clf.predict(X))
이 질문은 : 전체 데이터 셋
[ 1 1 1 -1 ... 1 1 1 -1 1]
를 사용하는 것이 논리적으로 맞습니까?
X
에 장착 할 때
또는 오직
IsolationForest
?
train_X
- 답변 # 1
관련 자료
- command line - AppleScript를 사용하여 클립 보드 항목이 이미지 데이터인지 감지
- 신경망을 사용하여 문서의 정보를 감지하고 인식하는 방법은 무엇입니까?
- Union-Find 데이터 구조를 사용하여 유 방향 그래프에서주기를 감지 할 수 있습니까?
- python - Pandas를 사용하여 긴 열 CSV 파일의 모양을 변경하여 적절한 데이터 프레임 테이블을 가져옵니다
- Swift에서 Singletons (구조체가있는 클래스)를 사용하는 적절한 방법
- r 플롯을 사용하여 특이 치에 대한 상자 플롯 주석
- python - 카드의 너비와 높이 또는 색상을 사용하여 여러 개체가있는 이미지에서 카드 감지 및 자르기
관련 질문
- python : 변환 공식을 사용하여 범주형 값을 매핑해야 하는 "숫자" 데이터 세트에 기능 추가
- python : Naive Bayes 및 Decision Tree Classification 모델을위한 정확도 플롯
- python : 특정 열에 의해 데이터 세트를 트레이닝 세트 및 테스트 세트로 분할하는 방법은 무엇입니까?
- python : nameError를 수정하는 방법 : name 'x_train'이 정의되지 않았습니까?
- python : 통합 영역을 최적화하십시오
- python : Keras-생성 예측에서 멀티 클라스 분류
- Scikit Learn의 1D 클러스터링 방법으로 커널 밀도 추정을 어떻게 사용합니까?
- python : ufunctypeError : ufunc 'Add'는 서명이 포함 된 루프가 포함되어 있지 않았습니다.
- python : TypeError : fit ()은 3 ~ 4 개의 위치 인수를 취하지만 5 개가 주어졌습니다.
- python : 결과를 파이썬 code에서 더 의미있게 인쇄 할 수 있습니까?
예, 궁극적으로 전체 데이터 세트를 학습하는 것이 논리적으로 정확합니다.
이를 염두에두고 훈련 세트 성능 대비 테스트 세트 성능을 측정 할 수 있습니다. 테스트 세트가 트레이닝 세트와 유사한 분포에서 나온 것인지 알 수 있습니다.시험 세트가 훈련 세트와 비교하여 비정상 점수를 얻는 경우 향후 데이터가 유사 할 것으로 예상 할 수 있습니다. 이 경우 더 많은 데이터를 통해 '정상적인'항목을보다 완벽하게 파악하고 싶습니다.
시험 세트가 훈련 세트와 비슷한 점수를 얻는다면 모든 데이터에 대해 훈련 된 최종 격리 숲에 더 편합니다.
아마도 sklearn TimeSeriesSplit CV를 이런 방식으로 사용하여 문제에 충분한 데이터 양을 알 수 있습니까?
변칙 탐지기에 대한 레이블이없는 데이터이므로 '정상'을 정의 할 때 더 많은 데이터가 더 좋습니다.