이직할 때 중요한 건 무엇일까. 그 회사, 다니기 정말 괜찮은지에 대한 판단일 것이다. 채용 공고는 물론이고 연봉, 인원, 매출, 면접 리뷰까지 수많은 기업 정보를 모은 플랫폼 ‘원티드 인사이트’. 그런데 이 데이터 정말 믿어도 될까? 원티드 데이터 엔지니어 최종원 님과 함께 원티드인사이트에 대한 이야기를 나눴다.

ⓒ원티드인사이트
Q. 원티드인사이트는 연봉, 인원, 매출 같은 기업 정보를 제공하고 있어요. 이 데이터들은 어디서 가져오는 건가요?
A. 국민연금공단, 금융감독원(이하 금감원), 알리오, 클린아이, 나이스, 고용보험, 국세청 등 다양한 출처를 통해 데이터를 수집해요. 문제는 각 출처마다 업데이트되는 주기가 다르다는 거예요. 대부분은 1년에 한 번 업데이트되지만, 한 달에 한 번 혹은 매일 업데이트되는 곳도 있거든요. 이걸 하나로 통합해 관리해야 정확하게 데이터를 보여줄 수 있어요.
Q. 각 각의 출처를 빠르게 가져오는 게 중요하겠네요.
A. 국민연금공단 데이터가 올라오면 1시간 내 원티드와 연동돼요. 금감원은 평균 연봉이 적힌 보고서를 매일 업데이트하는데, 원티드는 그걸 매일 가져오고요. 아마 원티드인사이트만큼 업데이트 빠른 곳이 없을걸요? 아직 못 만나 봤어요. 있다면 제보 부탁드립니다(웃음).
Q. 출처 별로 자동화가 되게끔 작업을 해 두신 건가요?
A. 한 달 동안 공공 데이터로 업데이트되는 국내 사업자 번호가 50만 개 정도 돼요. 그럼 이 50만 개를 모두 데이터 베이스에 넣어야 하죠. 이 외에 인원 증감률과 같은 변수를 줄 수 있는 부분도 고려해야 하고요. 이제는 자동화가 돼 30분 혹은 1시간이면 다 끝나요. 시간 단축이 됐죠.
Q. 크레딧잡 때는 자동화가 안 돼 수동 작업을 하셨던 거군요.
A. 맞아요. 그때는 국민연금공단 데이터가 올라오면 매달 주기적으로 들어가 데이터를 확인하고, 수동으로 데이터 베이스에 반영했어요. 그런데 저의 메인 업무는 따로 있기 때문에 다른 업무를 원활히 하기 위해서라도 자동화 과정이 반드시 필요했어요. 그걸 크레딧잡이 원티드인사이트로 리브랜딩 되는 시점에 함께 진행한 거죠.

Q. 그렇다면, 리브랜딩 과정에서 구체적으로 어떤 업무를 담당하신 건가요?
A. 크레딧잡은 기업 정보 사이트기 때문에 연봉 같은 기업 데이터를 다루는 게 중요한데요, 필요한 데이터 정보를 출처 별로 가져오는 일과 유지 및 보수 역할을 했습니다. 예를 들어, 국민연금 상한액은 매년 오르기 때문에 1년 주기로 업데이트를 해야 연봉 상한선에 맞는 정확한 평균 연봉이 측정돼요. 그런 새로운 데이터가 생길 때 빠르게 반영해 적용시켜주는 일을 했어요. 이처럼 일련의 데이터들을 이동시키는 과정을 ‘데이터 파이프라인’이라고 부르는데, 그 파이프라인을 가장 많이 담당했습니다.
Q. 데이터 파이프라인을 담당하면서 가장 어려웠던 점을 꼽는다면요?
A. 데이터를 가져오는 각 출처를 하나의 기업으로 묶어 내는 게 어려웠습니다. 금감원은 상장 기업만 제공하고, 알리오는 공공기관만 제공하기 때문에 모든 사업장을 가진 국민연금과 연결할 수 없어 활용하기 어렵거든요. 그런데 제대로 연결하지 않으면 기업명이 같을 때 구분하지 못하는 경우가 생겨서 해결이 필요했어요. 게다가 크레딧잡은 금감원 사업 보고서를 토대로 정보를 제공하는데, 때로 틀린 내용을 그대로 가져올 때가 있어요. 표 단위는 원인데, 표 안에는 100만 원단위라든지요. 물론 며칠 뒤 금감원 사이트에 ‘정정’이라고 수정해 올라오긴 하지만, 변경된 부분을 일일이 찾아 바꾼다는 게 결코 쉬운 일은 아니에요.
Q. 크레딧잡이 원티드인사이트로 리브랜딩 되는 과정에서 데이터의 변화도 반드시 필요한 부분이었겠네요. 이번 리브랜딩 과정에서 데이터 측면의 가장 큰 변화는 어떤 건가요?
A. 기준 체계가 국민연금에서 고용보험으로 바뀌었습니다. 모든 기업은 4대 보험을 내야 해요. 그런데 국민연금공단은 사업자 번호를 전부 제공하지 않아서 사업자 번호를 모두 제공하는 고용보험 체계로 기준을 삼으면 다른 출처들과 연결하기 쉬워지죠. 신뢰도를 더 높이기 위해서는 금융 감독 위원회나 공공기관같이 다른 기관에서 나온 데이터와 연결해야 누락이 없고요.
Q. 사업자 번호 전체를 제공하는 고용보험으로 기준을 바꾸었기에 수동 작업은 덜면서 빠르고 쉽게 데이터를 가져올 수 있는 기반을 만들게 된 거네요.
A. 그럼요. 대한민국의 모든 기업은 국세청에 사업장 신고를 해야 하니까요. 사업자 번호를 얻을 수 있는 출처를 기준으로 삼게 되면 비로소 자동화 작업이 가능해지죠.

Q. 자동화 과정에서 틀린 정보를 가져오는 경우는 없나요?
A. 자동화할 수 있는 영역과 수동 작업을 해야 하는 영역을 나눴어요. 대부분은 자동화가 되지만, 예외의 경우 사람이 수동으로 보며 오류를 없애 나갔고요. 이 부분은 백오피스 부서에 요청드리며 업무 분담을 했어요.
Q. 어떨 때 예외가 생기는 거예요?
A. 기업 ‘카카오’만 해도 카카오스타일, 카카오뮤직 등 비슷한 이름의 계열사가 정말 많은데 이런 계열사 데이터의 정보 분리가 안 돼 연봉 정보가 합산될 때가 있어요. 도급, 아르바이트 등 정규직이 아닌 사람들의 연봉 데이터가 평균 연봉 정보에 포함될 수도 있고요. 이런 부분을 솎아내는 작업이 필요해요.
Q. 계열사면 연봉 정보가 완전히 다를 텐데도 데이터가 합산될 수 있군요?
A. 회사가 사업장을 나눌 때 아예 다른 회사가 돼 버리는 경우도 있지만, 하나로 관리하는 기업도 있어요. 후자의 경우 기업은 여러 개인데 데이터 정보는 하나로 합산되는 거죠. 보다 정확한 데이터를 얻기 위해서는 기준을 잡고 통일해 작업하는 게 필요해요. 국가에서 나눈 기준이 가장 정확할 테니 국세청, 통계청, 국민연금 등에서 데이터를 가져오면서요.
Q. 출처가 많아 취합이 복잡하겠네요.
A. 그럼요. 리브랜딩 전에는 그런 일까지 수동으로 작업하느라 매달 며칠이 걸리기도 했습니다.

ⓒ원티드인사이트
Q. 연봉 정보나 기업 리뷰는 예민한 부분이라 기업에서 수정 혹은 삭제 요청을 할 수 있겠어요. 이 부분에 대한 관리는 어떻게 하나요?
A. 예민한 부분이기에 강성 고객의 CS 문의가 들어오기도 해요. 실제로 명예훼손 같은 법적인 문제에 휘말리기도 하고요. 그런데 기업 정보는 개인 정보가 아니라 비공개할 의무가 사실 없거든요. 책임 분리가 필요한 순간이죠. AE팀과 정보보호팀의 도움을 받으며 해결하고 있어요. 문제 사항에 빠르게 대응할 수 있도록 책임을 분리한 거죠. 그래야 ‘이 일을 누가 해야 할까’에 대한 마찰이 없어요. 커뮤니케이션도 비용이니까요.
Q. 여러 노력 덕분에 원티드인사이트 데이터에 대한 신뢰가 높은 것 같아요. 듣자 하니 원티드 데이터에 대한 외부 평판이 굉장히 좋다고요.
A. 솔직히 다른 기업 데이터팀이 어떻게 일하고 있는지는 잘 모르겠어요. 그런데 한 가지 분명한 건, 원티드 데이터 쪽은 레거시가 거의 없다는 거예요. 보통 이전에 작업한 부분을 수정해야 할 때 어려움이 생겨요. 그런데 원티드는 리팩토링을 통해 레거시를 줄여나가서 반복적이고 비효율적인 작업을 해야 할 일이 거의 없죠. 다른 기업과 차별화된 측면이라 생각해요. 시스템 확장을 위해 데이터와 코드 베이스 관리도 꾸준히 해 나가고 있고, 항상 최신 버전을 사용하고요. 실제로 오픈 소스나 커뮤니티를 둘러보면 원티드 데이터 관련한 긍정적 피드백을 종종 발견해요. 원티드인사이트 데이터를 제휴하고 싶다는 문의도 많이 들어와요.
Q. 꾸준한 데이터 관리가 비결이겠네요.
A. 오랜 기간 레거시를 없애면서 발전시킨 결과물이죠. 데이터 기반으로 업무하는 팀들도 더 빠르게 일하게 됐어요. 앞단에서 작업이 빨라지면 뒷단도 빨라질 수밖에 없잖아요.

Q. 크레딧잡의 시작부터 원티드인사이트까지 함께해 오셨어요. 원티드에서는 우스갯소리로 종원 님을 ‘크레딧잡의 양아버지’라고 부른다고요(웃음). 크레딧잡 양아버지로서 이직할 때 이 데이터만은 꼭 염두에 둬라는 게 있을까요?A. 개인적으로 ‘인원수’가 회사를 판단할 수 있는 중요한 지표라고 생각해요. 인력 충원할 여유가 있는 곳인지, 만일 그렇다면 공격적으로 뽑는 곳인지, 신중하게 채용하는 곳인지 어느 정도 파악할 수 있거든요. 전체 인원이 꾸준히 증가하는지 아닌지에 따라 회사 성장 속도도 체감할 수 있고요. 인원이 오른다는 건 매출이 잘 나온다는 뜻이니까요. 그걸 바탕으로 ‘1인당 매출액’을 계산해 보세요. 한 명이 회사에 기여하는 비용이 얼마인지 참고해 결정하면 도움이 되실 겁니다. 특히 인원수는 굉장히 정확한 데이터 중 하나예요. 직장인이라면 고용보험에 가입될 수밖에 없는데, 고용보험 데이터로 산정하니 정확할 수밖에요. ▶ <초능력자에게 가능성을 선물 받다> 시리즈 보러 가기 CREDIT글 김한나 원티드 콘텐츠 에디터 사진 최호근 포토그래퍼발행일 2023.11.27