ⓒ 셔터스톡이 업무는 어느 정도 개발에 대한 정보와 운영체제, 네트워크 등 인프라에 대한 이해가 함께 필요하다. 즉 바로 시작하기에는 이해해야 할 지식이 너무 방대하다. 그리고 개발의 넓은 부분을 아우르는 분야이기 때문에, 개발을 처음 시작하는 사람에게 어려운 요소가 많다.
하지만 데브옵스는 같은 회사 내 동료 개발자들의 개발 생산성을 극적으로 증대시킬 수 있는 업무이며, 끊임없는 모니터링을 통해 다양한 서비스가 막힘 없이 고객을 만나게 해주는 아주 중요한 역할을 수행한다. 업무를 자동화하고 조직 내 효율성을 개선하는 데 흥미를 느낀다면 도전해봐도 좋은 업무이다.
데이터 엔지니어데이터 엔지니어는 한 회사에서 생성되는 다양한 데이터를 수집하고 가공해 데이터 분석가나 과학자가 업무를 수행하는 데 필요한 파이프라인을 생성하는 역할을 한다. 대체로 데이터 엔지니어는 코드를 직접 짜기 때문에 백엔드 엔지니어 경험을 가지고 있는 경우가 많다.
데이터 엔지니어가 되기 어려운 이유는 이처럼 우선 풍부한 데이터베이스를 이해해야 하고, 인프라 지식이 필요하기 때문이다. 데이터 엔지니어는 다양한 곳의 데이터를 처리하는 업무 특성 상 여러 개의 데이터 베이스를 사용하는 경우가 빈번하다. 따라서 처음 개발을 접하는 사람에게는 너무 많은 내용을 한 번에 학습해야 한다. 그리고 데이터 엔지니어링은 방대한 양의 데이터를 한 번에 처리해야 하는 경우가 잦은데, 이를 위해 코드를 짜는 과정에서 컴퓨터 공학적 고려가 들어가야 하고, 이런 파이프라인이 인프라 위에서 어떻게 하면 적절하게 돌아가는지 등 시스템 아키텍쳐에 관련한 고민도 해야하는 포지션이다. 처음부터 데이터 엔지니어로 일을 하기 쉽지 않다.
하지만 데이터 엔지니어는 한 조직에서 데이터의 혈관을 책임지는 업무를 담당하고 있어, 데이터와 관련한 중요한 업무를 하게 되고 전문성을 쌓게 된다. 만약 개발 업무와 데이터 사이의 업무를 해보고 싶다면 관심을 가져봐도 좋다. 데이터 엔지니어는 대체로 자바, 파이썬, 스칼라를 쓴다. 미리 해당 언어에 익숙해지는 것이 필요하다.
데이터 과학자 (혹은 머신러닝 엔지니어)데이터 과학이라는 분야도 굉장히 방대한 카테고리다. 한 문장으로 정의하기는 결코 쉽지 않다. 이 글에서는 통계학과나 머신러닝과 관련된 업무를 하는 데이터 과학자에 한정 지어서 이야기를 해보도록 하겠다.
이 분야는 굉장히 고학력자가 많은 분야다. 구글에서 운영하는 데이터 과학자들의 올림픽 같은 플랫폼 사이트 ‘캐글(Kaggle)’이 있다. 캐글 내에서 수시로 대회가 열려, 데이터 과학자가 본인의 실력을 확인하고 다른 사람들의 지식과 경험을 배우기 위해 모이는 곳이다. 그곳에서
2021년 리포트를 발행했는데, 무려 데이터 과학자의 64.1%가 석사 이상의 학력을 가지고 있는 것으로 발표했다.