[태그:] 빅데이터

빅 데이터 인공지능 역할

제조 AI, 공정 특성에 적합한 알고리즘 선택이 성공의 열쇠

제조 현장 가장 큰 이슈는 데이터 부족…AI 적용 위해선 정확한 ‘정답 데이터’ 확보 중요

2024-02-11
통계로 풀어가는 빅데이터

isbn: 9791160100006

빅데이터가 제목에 포함되어 있지만, 한국 근현대사를 통계로 분석했다. 빅데이터는 이런 분석에 딱히 사용하지 않은 기분이다. 마지막에는 통계를 기본으로 한 6sigma, PCDA 활동을 간략하게 설명했다. 여러 통계를 기반으로 한 활동이 많은데, 이 책이 간단하게 정리를 잘 했다.

빅 데이터를 제대로 활용하려면 여러 통계를 기본으로 한 프로세스를 얼마나 빠르고 정확하게 피드백 받을 수 있는지가 중요하다. 관심있는 데이터를 수집하기 어렵고(처음 이니까), 수집한 데이터를 어느 기준으로 바라보냐에 따라 다양한 생각을 할 수 있다. 여러 생각 중 분석 주체가 가진 도메인 지식으로 가치를 산출해야 한다. 맞는 가설을 세운다면 통계적 분석으로 (가설이) 맞는지 틀린지 결론을 내는 전략이 핵심이다.

각 기업, 한국 의료보험, 인구 구조변화 등 다양한 사례를 통계를 근거로 설득력있게 설명한다. 책에 기록된 모든 예측이 모두 맞다고 볼 수 없지만 데이터에 근거한 합리적인 예측이다. 2050년에 세계 인구가 꾸준히 증가한다 예측했지만, 코비드19를 경험하면서 이 예측이 틀릴 확률이 높아졌다. 이런 상황에서 회귀분석이 의미없다. 데이터를 잘 활용하는 사람이 너무 당연하게 모두가 기본으로 생각한는 예측에서 만족하지 않고 남들이 예측하지 못한 부분에서 기회(아마도 위기일 듯 하다)를 찾아 advantage를 얻을 수 있다. 내 질문에 대한 답을 데이터로 정확하게 얻는 사람이 통계, 데이터 수집, 분석, 해당 분야에 대한 깊이있는 지식으로 이를 수행할 수 있다.

2021-04-13
데이터 과학을 위한 통계

isbn: 9791162240984

통계가 데이터에 어떻게 적용되는지를 확인하려 이 책을 읽었다. 책이 실질적인 내용으로 구성되어 있다. 그러나 개념을 자세하게 설명하지 않아 독자가 이 책을 읽고, 개념을 깨치고 업무에 적용하기는 어렵다. 통계, 확률을 잘 알고, 고전 개념과 다른 현대 데이터를 분석하는데 이런 개념을 R을 사용하여 이 책처럼 적용할 수 있다 정도로 설명한다.

통계, 확률을 잘 모르는 상태에서 이 책을 보면 내용을 잘 이해할 수 없다. 그러나 책에 있는 epsilon-greedy 전략, one-hot vector 등 머신러닝을 공부하는 과정에서 익숙한 내용도 보인다. 이런 내용이 갑자기 나오지 않았고 통계학에서 나왔음을 알 수 있다. “통계에 이런 개념이 있는데, 이를 R로 이렇게 구현된다.” 정도로 책이 독자에게 설명한다. 따라서 각 개념에 대한 얕은 지식을 얻을 수 있다. 얕은 지식이라도 중요하다. 적어도 이런 개념이 있다는 것을 알아야 쉽게 접근할 수 있다. R을 모르는 사람이 책 예시를 따라하긴 어렵다. 다음에 책을 선택할 때 R로 코드를 작성한 책을 선택하지 않겠다.

각 장, 세부 목록 개념을 이렇게 적용한다고 알았다. 그러나 기계적으로 적용한다면 적절하지 못하다. 적용하려는 사람이 개념을 정확히 이해하고, 데이터가 말하는 거짓에 속지 않을 정도 능력을 갖춰야 한다.

2021-04-05
데이터 분석을 떠받치는 수학

isbn: 9791158391041

빅 데이터를 현장에 적용하려면 통계를 알아야 된다는 생각으로 여러 책을 골라 봤다. 이 책은 엑셀로도 데이터 분석을 할 수 있음을 보여준다. ~~당연한거 아닌가?~~ 지금 엑셀보다 좋은 도구들이 많다. 그래도 가끔 필요할 때도 있다. ~~회사에서 보안을 이유로 다른 프로그램을 막았을 경우.~~

mean, median, covariance 등 여러 수식을 설명하고 이를 엑셀로 구해본다. 굳이 구해보지 않아도 되는데 책 작성 목적에 맞게 찾았다. Principal component analysis로 야구 선수를 분석했다. 분석해도 그 분석 결과를 명확하게 설명할 수 없다. 물론 현장에서 어떻게 사용하는지에 따라 다르겠다. 빅데이터에서 insight를 얻으려면 피곤하다. 빅데이터에서 얻은 insight가 우리 상식을 넘는 새로움을 가지고 있을까? 그런 경우는 얼마나 될까?

데이터 분석은 입력/출력에 따라 품질 변화가 많다. 어떤 질문을 하고 어떻게 검증하냐가 많은 차이를 만든다.

여러 기법 등을 적용하여 분석한 불량품 감지도 현장 적용하기 어렵다. 3sigma를 넘어가면 문제라고 보았을 때, 불량을 감지하기 위해서 전수 검사를 해야 한다. 어느 세월에 전수 검사를 하고 있는지…3sigma에 해당하는 제품을 포기하고 손실로 잡는게 맞다. 손실을 줄이기 위해 sigma 수준을 높여야 된다가 결론일 듯 하다.

2020-05-25
빅데이터를 지배하는 통계의 힘

isbn: 9788963220598

빅데이터를 가지고 있으면 모든 문제를 해결할 수 있어 보였다. 빅 데이터를 가지고 있음으로는 아무것도 할 수 없다. 데이터에서 인사이트를 얻기 위한 적절한 도구와 강인한 의지가 있어야 한다. 도구는 통계, 확률을 근거로한 여러 분석 방법이다. 의지란 데이터를 보고 현실을 인정하고 개선하려는 노력이다.

우리가 관측하는 모든 현실은 확률에 근거한다. 확률이 높으면 자주 보이고, 낮으면 드물게 보인다. 이를 근거로 가설을 세우고, 그 가설이 틀림을 증명하는 방법을 이미 여러 분야에서 사용한다.

빅 데이터로 무엇을 하려면 기초 통계 분석을 알아야 하는데, 이 책은 이를 도와준다. 개념을 모르고 빅 데이터를 조작함은 삽질이다. 지금 빅 데이터가 뜨는 이유가 기존 이론을 검증할 수 있을 컴퓨팅 파워를 얻었기 때문이다.

2020-05-17