>

개념 계층 구조를 만들어야하는 몇 가지 숫자 데이터 집합이 있습니다. 현재로서는 데이터 (및 해당 선 차트)를 관찰하여 수동 으로이 작업을 수행했습니다. 직감에 따라 수용 가능한 계층을 만들었습니다.

이것은 자동화 할 수있는 작업처럼 보입니다.숫자 데이터의 개념 계층을 생성하는 알고리즘이 있는지 아는 사람이 있습니까?

<시간>

예를 들어, 다음 데이터 세트가 있습니다 :

Bangladesh     521
Brazil         8295
Burma          446
China          3259
Congo          2952
Egypt          2162
Ethiopia       333
France         46037
Germany        44729
India          1017
Indonesia      2239
Iran           4600
Italy          38996
Japan          38457
Mexico         10200
Nigeria        1401
Pakistan       1022
Philippines    1845
Russia         11807
South Africa   5685
Thailand       4116
Turkey         10479
UK             43734
US             47440
Vietnam        1042

다음 계층을 만들었습니다 :

  • 최저 (<1000)
  • 낮음 (1000-2500)
  • 중간 (2501-7500)
  • 높음 (7501-30000)
  • 가장 높음 (>30000)

  • 답변 # 1

    클러스터 알고리즘이 필요할까요?

    링크에서 인용 :

    와이즈 비즈

  • 답변 # 2

    Jenks Natural Breaks는 매우 효율적인 단일 차원 클러스터링 체계입니다. http://www.spatialanalysisonline.com/OUTPUT/html/Univariateclassificationschemes.html#_Ref116892931

    의견에서 언급했듯이 이것은 k- 평균과 매우 유사합니다. 그러나 구현하기가 훨씬 쉬워졌으며 특히 Borden Dent의지도 제작에서 발견 된 변형이 http://www.amazon.com/Cartography-Thematic-Borden-D-Dent/dp/0697384950

  • 답변 # 3

    나는 당신이 인공 데이터에서 연속적인 데이터 (또는 다루기 힘든 많은 수의 클래스를 가진 이산 데이터)를 이산 클래스로 변환하는 데 상당히 일반적인 데이터 이산과 비슷한 것을 찾고 있다고 생각합니다.

    Weka가 Fayyad&Irani의 MDL 방법과 Kononeko의 MDL 방법을 사용한다는 것을 알고 있습니다. 참고 문헌을 파낼 수 있는지 알아 보겠습니다.

  • 답변 # 4

    1 차원 문제 일뿐입니다. 동적 프로그래밍 솔루션 일 수 있습니다. 점을 정렬 된 순서대로 취한 다음 n-1 컷을 만들어 n 개의 클러스터를 생성하는 것이 합리적이라고 가정하십시오. 군집 내 분산 또는 군집에서 최소값과 최대 값 사이의 거리와 같은 각 군집에 대해 페널티 함수 f ()를 기록 할 수 있다고 가정합니다. 그런 다음 각 클러스터에서 평가 된 f ()의 합계를 최소화 할 수 있습니다. 왼쪽에서 오른쪽으로 한 번에 한 지점에서 작업하십시오. 각 지점에서 1 .. # 군집-1의 경우 점을 해당 군집으로 분할하는 가장 좋은 방법을 찾아 해당 답변의 비용과 가장 오른쪽의 위치를 ​​저장하십시오. 포인트 P 및 클러스터 크기 c에 대해 다음과 같이이를 해결할 수 있습니다. P의 왼쪽에 가능한 모든 컷을 고려하십시오. 각 컷에 대해 컷의 오른쪽에있는 포인트 그룹에서 평가 된 f ()를 (저장된) 비용에 추가하십시오. 컷의 왼쪽에있는 지점에서 클러스터 크기 c-1에 가장 적합한 솔루션입니다. 가장 먼 길을 가면 클러스터 크기 c에 대한 최상의 답을 찾기 위해 동일한 트릭을 한 번 더 수행하고 가장 오른쪽 분할의 저장된 위치를 사용하여 가장 좋은 응답을 제공하는 모든 분할을 복구하십시오.

    이것은 실제로 k- 평균 변형보다 비쌀 수 있지만 (이러한 가정에서 선택한 f ()에 대해) 전 세계적으로 가장 좋은 답을 찾도록 보장 할 수있는 장점이 있습니다.

  • 답변 # 5

    유전 적 계층 클러스터링 알고리즘

    Cluster analysis or clustering is the assignment of a set of observations into subsets (called clusters) so that observations in the same cluster are similar in some sense. Clustering is a method of unsupervised learning, and a common technique for statistical data analysis used in many fields

  • 이전 powerbi - 버전 당 각 ID의 power bi에서 일수 차이를 얻는 방법
  • 다음 sql - 중복 ID 오류가 발생하는 page_init의 C # 동적 마법사