책 홍보 : 데이터 시각화 디자인 | 나가타 유카리 - 교보문고 (kyobobook.co.kr)
위 책을 읽고 게시물을 작성함을 알린다.
"앤스컴 콰르텟"은 영국의 저명한 통계학자 프랭크 앤스컴(Francis J. Anscombe)이 1973년에 발표한 논문에서 소개한 네 개의 데이터 집합입니다. 이 데이터 집합들은 통계적으로 유사한 여러 가지 특성을 가지고 있지만, 시각적으로는 매우 다른 패턴을 보여 주는 예시입니다.
앤스컴 콰르텟은 통계 분석에서 "요약 통계가 중요하다"는 메시지를 전달하기 위해 만들어졌습니다. 네 개의 데이터 집합은 모두 평균, 분산, 상관 계수, 회귀선 등의 통계적 지표에서 거의 동일한 값을 가지고 있어서, 이런 요약 통계만으로는 데이터의 본질을 충분히 이해하기 어렵다는 것을 보여줍니다.
앤스컴 콰르텟의 주요 목적은 요약 통계만을 의존하지 말고 데이터의 시각적인 표현을 통해 더 깊은 이해를 얻어야 한다는 것을 강조하는 것입니다. 이러한 사례는 데이터 분석에서 '시각화의 중요성'을 강조하며, 통계 결과만으로는 실제 데이터의 특성을 완전히 이해하기 어려울 수 있다는 점을 보여줍니다.
통계적 지표가 같아도 데이터가 가진 경향이 다르면 비즈니스 관점에서 취할 행동이나 다음에 해야 할 일에 대한 아이디어는 확연히 달라질 것.
통계적 지표의 힘과 시각화의 힘을 함께 사용하는 것에 중요한 가치가 있다.
"평균을 그대로 받아들이는 것은 위험하다"는 표현은 데이터 분석과 통계에서 주의해야 할 점을 강조하는 말입니다. 이것은 특히 데이터의 분포가 한쪽으로 치우쳐져 있거나 이상치(outlier)가 존재할 때 중요한 원칙입니다.
따라서, 데이터를 요약하거나 해석할 때는 평균 외에도 중앙값, 사분위수, 히스토그램 등 다양한 통계적 지표와 시각화를 함께 고려하는 것이 중요합니다. 이를 통해 데이터의 특성을 더 정확하게 이해하고 적절한 결론을 도출할 수 있습니다.
표준편차 또한 마찬가지다.
하지만 몇 만 건이나 되는 설문 데이터의 숫자나 응답을 일일이 보면서 분석하는 것 또한 위험. 그렇기 때문에 어떤 종류의 대푯값(평균, 분산, 표준편차, 상관 계수 등)을 참고해 전체를 파악하고 이해한다는 의미에서 통계량은 매우 편리함.
그러나 단 하나의 지표 예를 들어 '평균'만 보는 것은 분석하고자 하는 대상의 분포나 추이 등 '실제 모습'을 볼 수 없다는 점은 주의해야 함.
≪데이터 시각화 디자인≫ 1-4 데이터 시각화에서의 '색' 사용법 (0) | 2023.12.24 |
---|---|
≪데이터 시각화 디자인≫ 1-3 기억을 도우라 (0) | 2023.12.24 |
≪데이터 시각화 디자인≫ - 1 (용어 정리) (0) | 2023.12.19 |