안녕하세요. 최근(이라고 하지만 꽤 오랫동안) 블로그 포스트가 뜸했는데 오랜만에 돌아왔습니다. 제가 블로그를 그동안 업데이트하지 못했던 이유는 대학원에 진학하게 되면서 학업과 블로그를 병행하는 것이 힘들어졌기 때문입니다. 제 욕심으로는 공부를 하면서 블로그도 운영하고 싶었는데 제 능력으로는 너무 힘들더군요... 그래도 이제 졸업을 앞두고 있기도 하고 블로그를 다시 활성화 시킬 겸 빅데이터 시험 후기로 새 마음으로 블로그를 다시 시작해보도록 하겠습니다 ㅎㅎ

빅데이터 분석기사 시험을 응시하게 된 계기

  제가 빅데이터 분석기사 시험을 응시하게 된 계기는 주변 사람들이 빅데이터 분석기사 시험을 추천해줬기 때문입니다. 빅데이터 분석기사가 이번에 제 1회 시험이기 때문에 많은 사람들이 다른 자격증 1회 시험이 그렇듯이 매우 쉬울 것이라고 예상했습니다. 그렇기 때문에 이번 기회에 자격증을 따두는 것이 좋지 않겠냐고 주변 사람들이 저에게 빅데이터 분석기사를 추천해주었고 저 역시 좋은 기회라고 생각해서 빅데이터 분석기사 시험에 응시하게 되었습니다.

빅데이터 분석기사 필기시험 준비과정 / 후기

  저는 먼제 빅데이터 분석기사 필기시험을 준비하기 위해 교재를 구입했습니다. 교재는 제 눈에 띄는 아무 교재나 구입했습니다. 아무래도 이번 빅데이터 분석기사 시험이 1회 시험이고 딱히 좋은 기출 문제집이 없기 때문에 아무 교재나 구입헤도 된다고 생각했기 때문입니다. 제가 알기론 빅데이터 분석기사 시험은 앞으로도 시험문제를 절대 반출하지 않을 것이기 때문에 기출 문제집이 안나올 수 있을 것 같습니다. 1회 시험이 끝났다고 해서 교재의 내용이 엄청나게 업데이트 될 것 같지도 않기 때문에 아무 교재나 얼른 사서 먼저 공부를 시작하는 것을 추천드립니다. 제가 듣기론 빅데이터 분석기사 교재들은 ADsP 교재의 문제를 참고해서 만들어졌다고 하더라고요.

  빅데이터 분석기사 필기시험은 빅데이터 분석기획, 빅데이터 탐색, 빅데이터 모델링, 빅데이터 결과해석 총 4개의 과목으로 이루어져있습니다. 이중에서 제가 제일 공부하기 힘들었던 과목은 빅데이터 분석기획과 빅데이터 탐색입니다. 뒤의 두 과목은 대학원에서도 제 스스로도 많이 공부해왔던 내용들이라 공부하는게 그렇게 어렵지는 않았지만 앞의 두 과목은 너무 암기성의 내용이 대부분이고 생소한 내용들이 많아서(하둡 환경과 같은) 암기하기가 너무 어렵더라고요. 그래서 공부하는데 가장 많은 시간을 잡아먹은 과목입니다.

  막상 시험에 들어가니 공부한 내용과 조금 괴리가 있었습니다. 아무래도 기사 시험이 4지선다 문제들이다 보니 암기과목 문제들은 찍기(...)로 수월하게 넘어갈 수 있었고 오히려 통계 문제들이 복병이었습니다. 제가 통계를 배운지 좀 되어서 기억이 가물가물했지만 그래도 얼마 남지 않은 기억으로 겨우겨우 풀수는 있었습니다. 제가 이 후기를 작성하기 전에 빅데이터 분석기사 시험에 대해 검색을 해봤는데 이에 대해서 작은 논란이 있더군요. 빅데이터 지식보다는 통계 지식에 대한 문제가 너무 많다고요. 하지만 저는 이것이 문제라고 생각하지 않습니다. 빅데이터의 대부분의 지식이 통계학에서 유래했고 통계학은 빅데이터를 공부하기 전에 배워야 할 기초지식이라고 생각하기 때문입니다. 요즘 여기저기서 빅데이터를 공부하기 위해 통계학을 공부할 필요는 없다고 홍보하고 있지만 저는 통계학이 매우 중요하다고 생각합니다. 통계학을 모른다면 빅데이터를 공부하더라도 대부분의 원리를 이해하지 못하실 것입니다. 이해 없는 공부는 반쪽짜리 공부일 뿐이죠. 빅데이터를 공부하실 분들이라면 대학 수준의 통계학은 꼭꼭 먼저 공부하시길 추천드립니다. 아무튼 결과적으로 제 필기시험 점수는...

 
  다음과 같이 나왔습니다. 보시면 아시겠지만 제가 어렵다고 했던 빅데이터 탐색 과목의 점수가 제일 낮네요... 합격기준이 전과목 10점 이상이고 총점 60점 이상이니 정말 아슬아슬하게 합격했습니다. 67.5점이라니 정말 위험했네요 운이 좋았습니다 ㅎㅎ


빅데이터 분석기사 실기시험 준비과정 / 후기

  필기시험과 달리 실기시험은 따로 준비하거나 하지 않았습니다. 그 당시 저는 졸업 논문 준비로 매우 바빴기 때문에 따로 신경 쓸 여유가 없었거니와 원래 공부하던 영역인데 따로 준비하지 않아도 높은 성적이 가능할 것이라고 생각했기 때문입니다. 그래서 전 시험 전에 홈페이지에서 시험환경과 예상 시험문제 정도만 간단하게 체크하고 시험장에 갔습니다. 실기 시험 문제는 단답형, 작업형 제1유형, 작업형 제2유형 세가지의 유형으로 나누어져 있습니다. 단답형과 작업형 1유형은 빅데이터를 공부하시는 분들이라면 무리없이 쉽게 풀 수 있으실거라고 봅니다. 단답형은 말그대로 주관식 문제이고 작업형 제1유형은 전처리에 대한 문제들이 많이 나옵니다. sklearn의 preprocessing 부분만 외워두고 가시면 편할 것입니다.

  문제는 작업형 제2유형입니다. 작업형 제2유형은 데이터의 전처리부터 예측 모델을 구현하고 답을 출력하는 과정까지 코딩을 하는 것입니다. 문제자체는 어렵지 않지만 난관은 코딩에 쓰이는 모든 패키지와 메소드들의 이름을 외우고 가야한다는 것입니다. 시험환경이 자동완성을 지원하지 않다 보니 사소한 스펠링까지 모두 외워가셔야 편합니다. help()함수를 쓰실 수는 있지만 시험시간에 언제 그거 다 읽습니까... 시험 환경의 서체는 가독성도 매우 떨어져서 help 읽기도 쉽지 않습니다. sklearn의 preprocessing, model_selection, metrics 등 모델 구현에 쓰이는 대표적인 메소드들은 모두 외워야 했습니다.

  이런 것들을 외우는 것은 어렵지 않았지만 진짜 걱정되었던 것은 모델의 hyper parameter 값을 외우는 것입니다. 예측 모델들은 간단한 모델들을 제외하고는 대부분 몇개씩 설정해줘야 할 hyper parameter가 존재하고 모델 최적화를 위해선 이 값들을 튜닝해주는 것이 필수적이었기 때문입니다. 제 맘대로 설정할 수 있다면 좋겠지만 대부분 적절한 권장값이 존재하기 때문에 권장값의 범위를 모두 외워야합니다. 그리드 서치를 하는 법을 알고 있더라도 적절한 값의 범위는 알고 있어야 사용할 수 있으니끼요. 그래서 전 모든 모델의 hyper parameter 값을 외우는 것은 힘들다고 보고 꾀를 부렸습니다.

  저는 홈페이지의 공지를 통해 시험 환경에서 xgboost 패키지를 제공한다는 것을 알게 되었습니다. 저는 xgboost 단 한개의 모델의 hyper parameter만 외우기로 했습니다. xgboost는 회귀, 분류 모든 유형의 문제에서 적용할 수 있으며 대부분의 경우에서 다른 모델보다 성능도 뛰어나고 속도도 빠르기 때문입니다. 그래서 전 이 모델 하나만 외워가서 회귀문제가 나오던 분류문제가 나오던 사용하기로 마음먹었습니다. 그래서 제 실기시험 점수는...

  꽤나 높은 점수로 시험에 합격할 수 있었습니다! 특히 작업형 제2유형이 40점으로 만점인거 보이시나요? 여러분도 xgboost 한 모델만 외워가시면 만점을 받으실 수 있습니다! 시험에서 모델의 성능을 평가하는 기준으로 roc-auc 점수가 주어졌는데 제 경우에는 모델의 평균 roc-auc점수가 0.66정도가 나왔습니다. 이 점수는 그렇게 높은 점수는 아닌데 만점을 받은 것을 보면 점수 기준이 그렇게 빡빡한 것은 아닌걸로 보입니다. 작업형 제2유형에서 좀 더 조언을 드리자면 xgboost를 통해 변수별로 중요도를 계산해보면서 중요한 변수만 예측 모델에 반영하도록 하고 되도록이면 하나의 모델보다는 여러개의 모델을 생성해서 앙상블을 이용하는 것입니다. 저는 이렇게 함으로써 roc-auc점수를 조금이라도 더 올릴 수 있었답니다.

  어떻게 빅데이터 분석기사 시험을 준비하는 분들에게 제 후기가 도움이 되었는지 모르겠습니다. 혹시 시험에 대해서나 다른 궁금한 점이 있으신 분들은 댓글로 질문들 달아주시면 제가 꼭 답변을 남겨드리겠습니다. 지금까지 제 후기를 읽어주셔서 정말 감사드립니다!

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기