>
tb 치료를 위해 클리닉을 방문하는 대상으로 구성된 종단 데이터 세트가 있습니다. 각 방문에서 몇 가지 잠재적 예측 변수가 기록되며 각 방문마다 유리한 결과가 있었는지 또는 불리한 결과가 있었는지에 대한 이진 결과가 있습니다.

일부 방문에서는 일부 예측 변수에 데이터가 누락되어 있고 같은 방문에서는 다른 예측 변수에 해당 데이터가 있습니다.

R에서 geepack 패키지를 사용하여 gee 모델을 실행했을 때 오류가 발생했으며 gee가 완전한 데이터를 처리하기 때문에 오류가 발생한 데이터가 없다는 것을 알았습니다.

그러나 다른 예측이 완료된 동안 하나의 예측 변수가 누락되어 관측 값을 삭제하면 많은 데이터가 삭제됩니다. 이에 대한 해결 방법이 있습니까?

  • 답변 # 1

    완전한 데이터가필요한경우 대치 할 수 있습니다. 이것에 대한 인기있는 라이브러리/방법 중 하나는 '마우스'입니다.

    데이터를 구성하는 것이 상당히 중요하기 때문에이 접근 방식에는 매우주의해야합니다. 특히, 실제 물건은 종종 무작위가 아닙니다. 극단적 인 값이 누락되거나 기록 될 가능성이 더 높습니다. 제 생각에는이 일을 올바르게하는 방법은 여전히 ​​공개 된 연구 문제입니다.

    여기서 튜토리얼 https://datascienceplus.com/imputing-missing-data-with-r-mice-package/ 또는 링크 된 단순화 된 버전을 확인하십시오. 이것이 귀하의 경우 YMMV에 적합한 지 확인하십시오.

관련 자료

  • 이전 c# - UserManagerCheckPasswordAsync는 항상 실패를 반환합니다
  • 다음 Ansible을 사용하여 Powershell에 매개 변수 목록 전달