[태그:] 데이터

  • 데이터 과학을 위한 통계

    데이터 과학을 위한 통계

    isbn: 9791162240984

    통계가 데이터에 어떻게 적용되는지를 확인하려 이 책을 읽었다. 책이 실질적인 내용으로 구성되어 있다. 그러나 개념을 자세하게 설명하지 않아 독자가 이 책을 읽고, 개념을 깨치고 업무에 적용하기는 어렵다. 통계, 확률을 잘 알고, 고전 개념과 다른 현대 데이터를 분석하는데 이런 개념을 R을 사용하여 이 책처럼 적용할 수 있다 정도로 설명한다.

    통계, 확률을 잘 모르는 상태에서 이 책을 보면 내용을 잘 이해할 수 없다. 그러나 책에 있는 epsilon-greedy 전략, one-hot vector 등 머신러닝을 공부하는 과정에서 익숙한 내용도 보인다. 이런 내용이 갑자기 나오지 않았고 통계학에서 나왔음을 알 수 있다. “통계에 이런 개념이 있는데, 이를 R로 이렇게 구현된다.” 정도로 책이 독자에게 설명한다. 따라서 각 개념에 대한 얕은 지식을 얻을 수 있다. 얕은 지식이라도 중요하다. 적어도 이런 개념이 있다는 것을 알아야 쉽게 접근할 수 있다. R을 모르는 사람이 책 예시를 따라하긴 어렵다. 다음에 책을 선택할 때 R로 코드를 작성한 책을 선택하지 않겠다.

    각 장, 세부 목록 개념을 이렇게 적용한다고 알았다. 그러나 기계적으로 적용한다면 적절하지 못하다. 적용하려는 사람이 개념을 정확히 이해하고, 데이터가 말하는 거짓에 속지 않을 정도 능력을 갖춰야 한다.

  • 데이터 과학을 위한 통계

    데이터 과학을 위한 통계

    isbn: 9791162240984

    R을 사용하여 여러 통계 개념을 설명한다. 이런 개념은 R을 이렇게 사용하면 된다 이런 느낌이다. 어차피 통계 일도 모르는 난 R보다 python을 쓸 생각이다. 여기 개념을 현실에 어떻게 적용할 지 도저히 모르겠다. box plot에서 outlier가 많다면 이를 근거로 어떤 판단을 할까? 당연한 사실을 알기만 하고 그 다음은 보이지 않는다.

  • 처음 배우는 데이터 과학

    처음 배우는 데이터 과학

    isbn: 9791162249727

    프로그램, 전처리, 시각화, 확률, 특징값, 머신러닝 등 이 업계에서 일하는 사장이 갖춰야 할 기본? 소양을 설명한다. 한 사람이 이런 넓은 영역을 깊게 알지 못한다. 어느 영역에 어떤 기술을 적용할 지 잘 판단함이 정말 뛰어난 능력이다. 술술 읽히지만 이 책을 보고 데이터 분석, 과학을 실 업무에 적용하긴 어렵다. 기초를 설명한 책, 동영상을 찾아 추가로 공부해야 한다.

  • 데이터 과학자가 되는 핵심 기술

    데이터 과학자가 되는 핵심 기술

    isbn: 9791161750767

    초보가 보기 괜찮은 책이다. 처음부터 고급까지 정확하고 세세하게 설명했다. 물론 쉽다. 하긴 python 코드 자체가 워낙 쉬우니??

    Frequentist, Bayesian에서 t-검증, 카이 제곱 검증까지 하면 대략 현장에서 응용할 수 있어 보인다. 중간에 검증할 수 있는 단계도 필요하다. 책 보면 모두 이해됐다고 하지만 막상 하려면 틀린 부분이 있을 테니.

    나중에 시간되면 다시 한번 읽어볼 책이다.

  • 데이터 분석을 떠받치는 수학

    데이터 분석을 떠받치는 수학

    isbn: 9791158391041

    빅 데이터를 현장에 적용하려면 통계를 알아야 된다는 생각으로 여러 책을 골라 봤다. 이 책은 엑셀로도 데이터 분석을 할 수 있음을 보여준다. 당연한거 아닌가? 지금 엑셀보다 좋은 도구들이 많다. 그래도 가끔 필요할 때도 있다. 회사에서 보안을 이유로 다른 프로그램을 막았을 경우.

    mean, median, covariance 등 여러 수식을 설명하고 이를 엑셀로 구해본다. 굳이 구해보지 않아도 되는데 책 작성 목적에 맞게 찾았다. Principal component analysis로 야구 선수를 분석했다. 분석해도 그 분석 결과를 명확하게 설명할 수 없다. 물론 현장에서 어떻게 사용하는지에 따라 다르겠다. 빅데이터에서 insight를 얻으려면 피곤하다. 데이터에서 얻은 insight가 우리 상식을 넘는 새로움을 가지고 있을까? 그런 경우는 얼마나 될까?

    데이터 분석은 입력/출력에 따라 품질 변화가 많다. 어떤 질문을 하고 어떻게 검증하냐가 많은 차이를 만든다.

    여러 기법 등을 적용하여 분석한 불량품 감지도 현장 적용하기 어렵다. 3sigma를 넘어가면 문제라고 보았을 때, 불량을 감지하기 위해서 전수 검사를 해야 한다. 어느 세월에 전수 검사를 하고 있는지…3sigma에 해당하는 제품을 포기하고 손실로 잡는게 맞다. 손실을 줄이기 위해 sigma 수준을 높여야 된다가 결론일 듯 하다.