통계로 풀어가는 빅데이터

isbn: 9791160100006

빅데이터가 제목에 포함되어 있지만, 한국 근현대사를 통계로 분석했다. 빅데이터는 이런 분석에 딱히 사용하지 않은 기분이다. 마지막에는 통계를 기본으로 한 6sigma, PCDA 활동을 간략하게 설명했다. 여러 통계를 기반으로 한 활동이 많은데, 이 책이 간단하게 정리를 잘 했다.

빅 데이터를 제대로 활용하려면 여러 통계를 기본으로 한 프로세스를 얼마나 빠르고 정확하게 피드백 받을 수 있는지가 중요하다. 관심있는 데이터를 수집하기 어렵고(처음 이니까), 수집한 데이터를 어느 기준으로 바라보냐에 따라 다양한 생각을 할 수 있다. 여러 생각 중 분석 주체가 가진 도메인 지식으로 가치를 산출해야 한다. 맞는 가설을 세운다면 통계적 분석으로 (가설이) 맞는지 틀린지 결론을 내는 전략이 핵심이다.

각 기업, 한국 의료보험, 인구 구조변화 등 다양한 사례를 통계를 근거로 설득력있게 설명한다. 책에 기록된 모든 예측이 모두 맞다고 볼 수 없지만 데이터에 근거한 합리적인 예측이다. 2050년에 세계 인구가 꾸준히 증가한다 예측했지만, 코비드19를 경험하면서 이 예측이 틀릴 확률이 높아졌다. 이런 상황에서 회귀분석이 의미없다. 데이터를 잘 활용하는 사람이 너무 당연하게 모두가 기본으로 생각한는 예측에서 만족하지 않고 남들이 예측하지 못한 부분에서 기회(아마도 위기일 듯 하다)를 찾아 advantage를 얻을 수 있다. 내 질문에 대한 답을 데이터로 정확하게 얻는 사람이 통계, 데이터 수집, 분석, 해당 분야에 대한 깊이있는 지식으로 이를 수행할 수 있다.

나는 통계적으로 판단한다

isbn: 9791161754314

통계가 어떻게 사고에 관여하는지 알아보려 책을 보았다. 지식을 너무 파편적으로 설명하다 보니 잘 이해할 수 없다. 각 카테고리가 있는데 자의적으로 나눈 듯 하다. 이 책을 한번 읽고 실 생활에 적용할 수 있다면 이미 그 사람은 통계를 잘 아는 사람이다. 핵심 정리를 정확히 설명하지 않았다. 각 장에 설명한 예시만으로는 정확히 이해하기 어렵다. 이런 개념이 있다 정도로 이해하면 충분하게 잘 읽었다 본다.

데이터 과학을 위한 통계

isbn: 9791162240984

통계가 데이터에 어떻게 적용되는지를 확인하려 이 책을 읽었다. 책이 실질적인 내용으로 구성되어 있다. 그러나 개념을 자세하게 설명하지 않아 독자가 이 책을 읽고, 개념을 깨치고 업무에 적용하기는 어렵다. 통계, 확률을 잘 알고, 고전 개념과 다른 현대 데이터를 분석하는데 이런 개념을 R을 사용하여 이 책처럼 적용할 수 있다 정도로 설명한다.

통계, 확률을 잘 모르는 상태에서 이 책을 보면 내용을 잘 이해할 수 없다. 그러나 책에 있는 epsilon-greedy 전략, one-hot vector 등 머신러닝을 공부하는 과정에서 익숙한 내용도 보인다. 이런 내용이 갑자기 나오지 않았고 통계학에서 나왔음을 알 수 있다. “통계에 이런 개념이 있는데, 이를 R로 이렇게 구현된다.” 정도로 책이 독자에게 설명한다. 따라서 각 개념에 대한 얕은 지식을 얻을 수 있다. 얕은 지식이라도 중요하다. 적어도 이런 개념이 있다는 것을 알아야 쉽게 접근할 수 있다. R을 모르는 사람이 책 예시를 따라하긴 어렵다. 다음에 책을 선택할 때 R로 코드를 작성한 책을 선택하지 않겠다.

각 장, 세부 목록 개념을 이렇게 적용한다고 알았다. 그러나 기계적으로 적용한다면 적절하지 못하다. 적용하려는 사람이 개념을 정확히 이해하고, 데이터가 말하는 거짓에 속지 않을 정도 능력을 갖춰야 한다.

데이터 과학을 위한 통계

isbn: 9791162240984

R을 사용하여 여러 통계 개념을 설명한다. 이런 개념은 R을 이렇게 사용하면 된다 이런 느낌이다. 어차피 통계 일도 모르는 난 R보다 python을 쓸 생각이다. 여기 개념을 현실에 어떻게 적용할 지 도저히 모르겠다. box plot에서 outlier가 많다면 이를 근거로 어떤 판단을 할까? 당연한 사실을 알기만 하고 그 다음은 보이지 않는다.

데이터 과학자가 되는 핵심 기술

isbn: 9791161750767

초보가 보기 괜찮은 책이다. 처음부터 고급까지 정확하고 세세하게 설명했다. 물론 쉽다. 하긴 python 코드 자체가 워낙 쉬우니??

Frequentist, Bayesian에서 t-검증, 카이 제곱 검증까지 하면 대략 현장에서 응용할 수 있어 보인다. 중간에 검증할 수 있는 단계도 필요하다. 책 보면 모두 이해됐다고 하지만 막상 하려면 틀린 부분이 있을 테니.

나중에 시간되면 다시 한번 읽어볼 책이다.