인공지능(Artificial Intelligence, AI)은 사람의 지능(intelligence)을 인공적으로 모방하는 분야예요. 강아지와 고양이를 분류해 주는 AI, 멋진 글을 작성해 주는 ChatGPT, 그림을 그려주는 DALL-E 같은 놀라운 AI 모델처럼 광범위한 영역을 다룰 수 있는 거죠. 단순하게는 세탁이 끝나면 세탁기 내부의 불을 켜주는 장치나 건조를 위해 자동으로 문을 열어주는 식기세척기 같은 AI 모델도 있고요.
그런데, 이렇게 다양한 AI는 어떻게 만드는 걸까요? 세탁이 끝나거나 건조 상태를 알아내는 문제는 비교적 간단합니다. 기계의 상태를 주기적으로 추적하고, 목표하는 조건에 도달하면 불을 켜주거나 문을 열어주면 되거든요. 그러나 이미지를 이해하고, 글을 작성하고, 그림을 그리는 창의적인 AI는 단순한 조건으로 달성하기 어렵습니다. 이런 복잡한 AI는 학습 과정이 필요하죠.
이번 아티클에서는 인공지능 모델의 3단계 학습 과정을 알아볼 거예요. 절대 어렵게 생각하지 마세요. AI는 사람의 지능을 모방하는 분야이므로, AI의 학습 과정도 결국 사람의 학습 과정과 유사한 부분이 많거든요. 이해하기 쉽도록 중학생 한결이의 수학 공부 사례로 AI의 학습 과정을 설명드려볼게요.
AI 학습 3단계로 이해하는 인공지능 모델
앞서 한결이의 사례로 인공지능 모델(멍냥 예측기)의 3단계 학습 과정을 살펴봤는데요. 지금부터는 3단계 학습 과정을 다양한 인공지능 모델에 적용시켜 설명해 볼게요.
1. 글을 적는 AI 모델 ✍️
ChatGPT, Claude 같은 서비스를 사용해 본 적 있으신가요? 사용자가 적은 글을 바탕으로 답변을 제공하는 인공지능 모델입니다. 이 모델들의 출력 결과를 살펴보면 다음 글자를 예측하는 방법으로 글을 써 내려갑니다.
이러한 인공지능 모델의 학습 단계는 어떠했을까요? 해당 모델의 학습 초창기에는 아무 단어나 예측했을 겁니다. 이후 의미적으로 일맥상통하고 말이 되는 단어들을 바탕으로 Loss를 수치화했을 겁니다. 그다음 위에서 정리한 자연스러운 단어들이 나올 수 있도록 문맥적인 특징을 이해시키고, 단어들의 의미를 파악하게 했을 겁니다. 이런 과정이 지속적으로 반복되다 보니 사람이 봐도 어색하지 않은 글을 그럴듯하게 적어주는 AI 모델이 생성될 수 있는 것이죠.
2. 그림 그리는 AI 모델 🎨
사용자의 의도를 담고 있는 글을 바탕으로 창의적으로 그림을 그려주는 AI로는 DALL-E, MidJourney 같은 모델이 있습니다. 이런 AI 모델의 학습 과정도 한결이의 수학 공부와 비슷합니다. 초기에는 단순히 랜덤하게 이미지를 생성했을 겁니다. 물론 매우 형편없었겠죠. 이후 생성된 이미지가 주어진 설명과 얼마나 일치하는지 평가(Loss)를 통해 확인했을 겁니다. 마지막으로 주어진 설명과 일치하는 이미지를 생성하기 위해 이미지의 특징을 이해하고, 적절한 색상, 형태, 구도를 학습했을 거고요. 이러한 과정을 거쳐 AI는 주어진 설명에 맞는 그림을 정확히 그릴 수 있게 됩니다.
3. 음악 생성 AI 모델 🎵
최근에는 이미지나 글을 넘어 음악을 생성하는 인공지능 모델이 생겨나고 있습니다. 원하는 스타일의 음악을 묘사하는 글에 맞는 음악을 작곡해 주는 거죠. 이러한 AI는 어떤 방식으로 학습을 했을까요? 먼저, 무작위로 음표나 코드를 배열하여 음악을 생성할 겁니다. 이후 이미 잘 만들어진 음악의 배열과 비교합니다. 이 과정에서 Loss를 생성하게 되겠죠. 잘 만들어진 음악은 리듬, 멜로디, 화성 등이 잘 어우러져 있고, 이런 부분이 Loss의 형태로 표현되게 됩니다. 마지막으로 목표하는 음악 스타일을 포함하는 방식으로 모델이 업데이트되게 됩니다. 반복적인 학습을 통해 사람의 감성을 자극하는 멋진 음악을 만들어낼 수 있는 겁니다.
4. CCTV 같은 영상에서 특정 물체를 검출하는 AI 모델 💽
CCTV를 통해 사람이나 차량 같은 특정 물체를 검출하는 AI 모델을 생각해 봅시다. 초기에는 영상에서 임의의 영역을 사람이나 차량으로 예측할 겁니다. 이 과정에서 엉뚱한 곳을 찾기도 하고, 심지어 사람을 자동차라고 할 수도 있겠죠. 많은 오류가 있을 겁니다. 이후 실제 영상에서 사람이나 차량의 위치와 비교해 얼마나 정확하게 예측했는지 평가(Loss)합니다. 마지막으로 이러한 예측 오류를 줄이기 위해 사람이나 차량의 특징을 학습하도록 보완됩니다. 더 나아가 주변 환경과의 상관관계도 이해하게 됩니다. 일반적으로 차량은 빠르게 움직이고, 사람은 크기가 작을 것이라는 특징들을 알아차리게 되겠죠. 반복적인 학습을 통해 AI 모델은 CCTV 영상에서 특정 물체를 점점 더 정확하게 검출할 수 있게 됩니다.
5. 얼굴 이미지로 사람을 분류하는 AI 모델 👤
얼굴 인식 시스템은 보안, 출입 관리, 스마트폰 잠금 해제 등 다양한 분야에서 활용됩니다. 이 모델의 학습은 어떨까요? 초기에는 AI 모델이 얼굴 이미지를 보고 임의로 사람을 예측할 겁니다. 당연히 많은 오류가 있을 겁니다. 예를 들어, 서로 다른 사람들을 같은 사람으로 인식하거나, 같은 사람을 여러 다른 사람으로 인식할 수 있겠죠. 이후 실제 사람의 정체성(이름, 고유번호 등)과 비교해 얼마나 정확하게 예측했는지 평가(Loss)합니다. 마지막으로 예측 오류를 줄이기 위해 얼굴의 특징을 학습하도록 최적화됩니다. 눈, 코, 입 등의 생김새, 얼굴의 비율, 피부 톤 등의 세부적인 특징을 이해하게 되죠. 더 나아가, 조명, 각도, 표정 등 다양한 조건에서도 정확히 인식할 수 있도록 학습됩니다. 반복적인 학습을 통해 AI 모델은 얼굴 이미지를 점점 더 정확하게 분류하고, 신뢰성 있는 얼굴 인식 시스템으로 발전하게 됩니다. 많은 사람이 사용하는 스마트폰 얼굴 인식 기능이 정확하게 작동하는 이유도 바로 이러한 학습 과정 덕분입니다.
6. 콘텐츠 추천 AI 모델 🔍
넷플릭스나 유튜브 같은 콘텐츠 플랫폼에서 내가 좋아할 만한 콘텐츠를 추천받는 경험을 해보신 적 있나요? 이러한 추천 시스템도 인공지능 모델을 통해 구현됩니다. 초기에는 사용자에게 임의로 콘텐츠를 추천할 겁니다. 처음에는 사용자의 취향을 전혀 반영하지 못해 엉뚱한 추천을 많이 하게 되겠죠. 이후 사용자가 실제로 선택한 콘텐츠와 추천한 콘텐츠를 비교해 얼마나 정확하게 추천했는지 평가(Loss)합니다. 마지막으로 사용자의 취향을 더 잘 반영하기 위해 개선됩니다. 사용자의 시청 기록, 평가, 검색 내역 등을 학습해 사용자 선호도를 파악하고, 더 나아가 비슷한 취향을 가진 다른 사용자들의 데이터를 기반으로 더 정확한 추천을 하게 됩니다. 반복적인 학습을 통해 AI 모델은 사용자가 좋아할 만한 콘텐츠를 점점 더 정확하게 추천할 수 있게 됩니다. 예를 들어, 액션 영화를 좋아하는 사용자는 액션 영화가 자주 추천될 것이고, 드라마를 선호하는 사용자는 드라마가 더 많이 추천되겠죠.
***
이번 시간에는 AI의 학습에 필요한 3가지 과정을 다뤘습니다. 첫째, 결과를 만들어내는 Feed Forward 둘째, 정답과의 차이를 설명하는 Loss 셋째, 학습이 진행되는 최적화(Optimization) 과정까지. 세세하게 보면 분야별로, 데이터별로, 사용하는 AI 모델별로 상이한 부분이 존재하겠지만 큰 흐름은 같다는 걸 알게 되셨을 겁니다. 다양한 AI 서비스가 나오는 지금, 이 아티클이 AI 모델을 바라보는 여러분들의 시각을 넓혀주었길 바랍니다.