>

일부 의미 론적 분석에 사용하기 위해 여러 개의 lucene 지수에서 가장 높은 빈도의 용어를 추출해야합니다.

따라서 상위 30 개의 가장 많이 발생하는 용어 (여전히 임계 값을 결정하지 않았으며 결과를 분석 할 것임)와 인덱스 당 개수를 얻고 싶습니다. 나는 의도적으로 중복 된 삭제로 인해 정밀도가 떨어질 수 있음을 알고 있지만 지금은 그것에 대해 괜찮다고 말할 수 있습니다.

정적 분석을하기 때문에 제안 된 솔루션 (아마도 말할 필요는 없음)의 속도는 중요하지 않습니다. 저는 Lucene에 능숙하지 않기 때문에 구현의단순성을 강조합니다. 몇 가지 개념으로 내 마음을 감쌀 수 없어 ..

유사한 코드 샘플을 찾을 수 없으므로 모든 구체적인 조언 (코드, 의사 코드, 코드 샘플 링크 ...) 모든 조언을 감사하십시오!

감사합니다!

  • 답변 # 1

    이것을 살펴 보자. http://sujitpal.blogspot.com/2009/02/summarization-with-lucene.html

    이 페이지의 클래스는 has computeTopTermQuery  여러 색인을 통해 쉽게 개장 할 수 있어야합니다.

  • 답변 # 2

    루크를 사용하는 것이 가장 간단한 방법입니다. '개요'탭에는 필요한 용도로 사용할 수있는 '최고 용어 표시'버튼이 있습니다.

  • 이전 Eclipse에서 Java 코드를 실행할 때 명령 줄 매개 변수를 추가하는 방법은 무엇입니까?
  • 다음 recursion - 기본 작업 만 사용하여 목록을 재귀 적으로 반전시키는 방법은 무엇입니까?