>source

비교적 간단한 문제가 있다고 생각하지만 내가 잘못하고 있는 것에 대한 해결책을 찾지 못했습니다. 다음과 같은 4m + 행의 df가 있습니다.

    sum(bytes)
0       2.452768e+08
1       3.781524e+09
2       2.897799e+09
3       1.851381e+09
4       1.185865e+10
...     ...
4159349 2.515966e+08
4159350 1.719197e+06
4159351 7.499110e+05
4159352 9.540200e+04
4159353 2.457000e+03

dtype= 합계(바이트) -> float64

여기에 10개의 빈이 있는 히스토그램을 만들어 값의 백분위수 분포를 보고 어떤 값이 10% 상위 컷오프 값인지 확인할 수 있습니다. 나는 다음과 같이 멍청하다.

import matplotlib.pyplot as plt
plt.hist(df['sum(bytes)'], bins=10)

그리고 출력 그래프는 다음과 같이 끝났습니다.

누가 내가 뭘 잘못하고 있는지 알려줄 수 있습니까? 정말 감사합니다!

당신은 아무 잘못도하지 않았다. 다른 빈에는 상대적으로 적은 수의 값이 포함되어 있으며 현재 스케일에서는 기본적으로 보이지 않습니다.

BigBen2022-02-04 14:26:58

@BigBen 그런 다음 항목을 더 고르게 퍼뜨릴 수 있도록 빈 크기를 다시 조정하려면 어떻게 해야 합니까?

Martin Walczyński2022-02-04 14:30:31

결과를 전파하기 위해 결과에 대한 로그를 시도하고 사용할 수 있습니다.

Tomer S2022-02-04 14:39:01

데이터가 어떻게 분포되어 있는지 알아보기 위해 상자 그림을 생성할 수도 있습니다. 데이터를 더 탐색하기 위해 seaborn 패키지는 a.o. kde 플롯, 스트립 플롯 또는 상자 플롯.

JohanC2022-02-04 14:52:48

모두 감사합니다. 저는 실제로 로그 스케일이 필요했습니다. :)

Martin Walczyński2022-02-04 15:05:05
  • 이전 python : 'function' 개체에는 JSON에 'load' 속성이 없습니다.
  • 다음 C# -AWS EC2 발신 트래픽이 시작되지 않음