데이터 과학을 위한 통계

isbn: 9791162240984

통계가 데이터에 어떻게 적용되는지를 확인하려 이 책을 읽었다. 책이 실질적인 내용으로 구성되어 있다. 그러나 개념을 자세하게 설명하지 않아 독자가 이 책을 읽고, 개념을 깨치고 업무에 적용하기는 어렵다. 통계, 확률을 잘 알고, 고전 개념과 다른 현대 데이터를 분석하는데 이런 개념을 R을 사용하여 이 책처럼 적용할 수 있다 정도로 설명한다.

통계, 확률을 잘 모르는 상태에서 이 책을 보면 내용을 잘 이해할 수 없다. 그러나 책에 있는 epsilon-greedy 전략, one-hot vector 등 머신러닝을 공부하는 과정에서 익숙한 내용도 보인다. 이런 내용이 갑자기 나오지 않았고 통계학에서 나왔음을 알 수 있다. “통계에 이런 개념이 있는데, 이를 R로 이렇게 구현된다.” 정도로 책이 독자에게 설명한다. 따라서 각 개념에 대한 얕은 지식을 얻을 수 있다. 얕은 지식이라도 중요하다. 적어도 이런 개념이 있다는 것을 알아야 쉽게 접근할 수 있다. R을 모르는 사람이 책 예시를 따라하긴 어렵다. 다음에 책을 선택할 때 R로 코드를 작성한 책을 선택하지 않겠다.

각 장, 세부 목록 개념을 이렇게 적용한다고 알았다. 그러나 기계적으로 적용한다면 적절하지 못하다. 적용하려는 사람이 개념을 정확히 이해하고, 데이터가 말하는 거짓에 속지 않을 정도 능력을 갖춰야 한다.

댓글 달기 댓글 취소