텍스트 분석 기술의 발전 (RNN, Attention, Transformer, LLM)

글ㅣ정정민 AiLIVE AI 모델 개발 팀장

텍스트 분석 기술의 발전 (RNN, Attention, Transformer, LLM)

일자

상시

유형

아티클

태그

이 아티클은 <AI 개발자가 되고 싶다면> 시리즈의 6화입니다.

이전 아티클에서 강조한 것처럼, 인공지능(AI)은 사람의 인지 과정을 모방하는 기술이에요. 사람이 세상을 이해하고 정보를 처리하는 방식을 따라 하려고 꾸준히 노력해 왔죠. 텍스트 분석 역시 그중 하나입니다. AI가 사람처럼 글을 읽고 이해하는 것은 오랜 시간 풀기 어려운 과제였지만, 최근 대규모 언어 모델(LLM, Large Language Model)의 발전으로 AI의 텍스트 이해 능력은 놀라운 수준으로 성장했어요. 여기서 기술의 핵심은 바로 텍스트 분석에 있습니다. 텍스트 분석은 AI 기술의 중심에서 많은 혁신을 이끌어 왔거든요.

AI는 이제 텍스트 분석을 통해 문서 분석, 대규모 논문 요약, 복잡한 프로그래밍 코드 생성까지 해결할 수 있어요. 방대한 법률 문서 사이에서 필요한 조항을 빠르게 찾아내거나, 수백 편의 연구 논문을 읽지 않고도 핵심 내용을 추출하는 데 도움을 줄 수 있죠. 뿐만 아니라, AI는 개발자들이 작성한 프로그래밍 코드에서 오류를 찾아내고, 심지어 새로운 코드를 작성할 수도 있어요. 텍스트 분석은 단순한 문장 분류나 감정 분석을 넘어, 복잡한 문제를 해결하기 위한 중요 도구로 자리 잡은 거예요.

이번 아티클에서는 AI가 텍스트를 어떻게 읽고 이해하는지, 그리고 이를 가능하게 한 핵심 기술들은 무엇인지 살펴볼 거예요. 초기의 순환 신경망(RNN)부터 주의 메커니즘(Attention)과 Transformer, 그리고 LLM까지! 텍스트 분석 기술이 어떻게 발전해 왔는지 함께 알아볼게요.

그런데 잠깐,

우리는 어떻게 글을 읽을 수 있는 걸까요? 👀

글을 읽을 때, 우리는 단어를 하나씩 순차적으로 받아들이며 그 의미를 이해해요. 예를 들어, “아침 먹고 학교를 갑니다”라는 문장을 읽는다고 해 볼게요. 이 문장을 읽을 때, 우리는 먼저 “아침”이라는 단어를 인식하고, 이 단어가 아침이라는 시간을 의미한다는 것을 이해하겠죠. 그다음, “먹고”라는 단어를 접하면, 이 단어는 아침과 연결되어 “아침을 먹는다”는 행동을 의미한다고 해석하게 되죠. 바로 아래 이미지처럼요!

ⓒ정정민

한 단어를 읽고 그 의미를 파악한 후, 우리는 다음 단어로 넘어갑니다. 이런 반복 과정을 거쳐 문장의 의미를 점점 더 확장해 나가죠. “학교를”이라는 단어를 접했을 때, 앞의 “아침 먹고”와 연결해 아침 식사 후 학교에 간다는 의미를 자연스럽게 이어서 이해하는 거예요. 마지막으로 “갑니다”라는 단어를 읽으면, 전체 문장의 의미가 완성돼 “아침을 먹고 학교에 간다”는 상황을 머릿속에 그릴 수 있게 되죠. 아래 이미지처럼요.

ⓒ정정민

위 과정은 매우 빠르게 일어나서 눈치를 못 챌 수도 있었겠지만, 사실 우리는 문장을 읽을 때 단어를 하나하나 받아들이고 이를 머릿속에서 연결해 의미를 만들어내는 과정을 반복하고 있는 거랍니다. 문장의 처음부터 끝까지 순차적으로 단어들을 처리하고, 각 단어가 전체 문장에서 어떤 역할을 하는지 이해해 나가면서, 결국 완전한 의미를 도출할 수 있게 되는 거죠.

순환 신경망 구조 🧠

: 사람의 인지 과정을 모방한 AI

❇️ 순환 신경망(RNN, Recurrent Neural Network)

우리가 문장을 읽을 때 단어를 하나씩 받아들이며 순차적으로 처리하는 방식은 순환 신경망(RNN, Recurrent Neural Network)의 원리와 매우 비슷해요. RNN은 1980년대에 처음 등장한 기술로, 인간의 문장 처리 과정을 모방한 인공지능 모델인데요. RNN은 문장에서 단어를 하나하나 입력받으며, 앞서 받아들인 정보를 뒤로 갈수록 정리하고 연결하죠. 즉, 처음 받은 정보를 기억하면서 새로운 단어가 들어올 때마다 그 정보들을 함께 조합해 문장의 전체 의미를 만들어가는 거예요.

예를 들어, “아침 먹고 학교를 갑니다”라는 문장을 처리할 때, RNN은 “아침”이라는 단어를 먼저 입력받아 기억하는 상태에서, 다음 단어인 “먹고”를 입력받아요. 그러면서 앞에 입력된 “아침”과 “먹고”를 연결해 “아침을 먹는다”라는 부분적인 의미를 만들어냅니다. 이런 식으로 문장의 끝까지 계속해서 단어를 처리하고, 최종적으로 “아침을 먹고 학교에 간다”라는 전체 문장의 의미를 완성하는 방식인 거죠. 아래 이미지를 참고하면 이해가 더 쉬울 거예요.

ⓒ정정민

하지만, RNN은 큰 단점이 하나 있었어요. 문장이 길어질수록 초반에 입력된 정보를 잊어버리거나, 그 정보를 제대로 반영하지 못하는 문제였죠. 이를 개선하기 위해 1997년, LSTM(Long Short-Term Memory)이라는 모델이 등장했어요.

❇️ LSTM(Long Short-Term Memory)와 GRU(Gated Recurrent Unit)

LSTM은 RNN의 정보 유실 문제를 해결해 문장이 길어져도 처음에 입력된 중요한 정보를 잘 기억하고 처리할 수 있었어요. 이후 2014년에는 GRU(Gated Recurrent Unit)가 등장했어요. GRU는 LSTM과 비슷한 성능을 내는 동시에, 구조는 더 단순해서 특정 작업에서 더 빠르고 효율적으로 작동할 수 있는 장점이 있죠. LSTM과 GRU는 2010년대에 들어와 더욱 널리 사용되며, 텍스트 분석에서 중요한 도구로 자리 잡았어요. RNN의 한계를 보완해 AI가 더 복잡하고 긴 문장도 잘 이해할 수 있도록 발전한 핵심 기술이 되었죠.

어텐션 💡

: 순환 신경망의 한계를 넘어서

❇️ 순환 신경망(RNN)

순환 신경망(RNN) 구조 덕분에 텍스트 처리는 많은 발전을 이뤘지만, 순환 신경망의 명확한 한계는 여전히 존재했습니다. 특히 가장 큰 한계는 장기 의존성(long-term dependency)을 처리하는 데 어려움이 있다는 거였죠. 사람도 어떤 글을 읽다 보면 앞쪽의 내용이 기억 안 날 때가 있잖아요? 순환 신경망 역시 문장이 길어지게 되면, 초반에 입력된 정보가 점차 희미해지기 때문에 첫 단어와 마지막 단어 사이의 중요한 연결을 제대로 처리하지 못할 때가 많아요. 앞 내용이 희미해진 대신, 뒤쪽의 새로운 정보는 강하니 전체 문장의 연결성이 약해질 수밖에요. 이로 인해 문장의 전체적인 의미를 완전히 파악하지 못하는 문제가 생겨나게 됩니다.

또한, RNN은 병렬 처리가 어렵다는 단점도 가지고 있어요. RNN은 문장을 처리할 때 각 단어를 순차적으로 받아들이기 때문에, 앞 단어를 처리한 후에야 다음 단어를 처리할 수가 있는데요. 이는 문장이 길어지거나 많은 양의 데이터를 처리할 때 시간이 많이 걸리고, 병렬 처리를 통해 속도를 높이는 데 한계가 있다는 것을 의미해요. 결과적으로 RNN 구조는 긴 문장이나 대규모 데이터를 처리하는 데 비효율적일 수 있어요.

❇️ Attention(주의 메커니즘)

Attention(주의 메커니즘)은 순차적으로 단어를 처리하는 RNN의 한계를 극복하기 위해 등장했어요. 주의 메커니즘은 문장 전체를 한 번에 바라보면서, 문장 속에서 어떤 단어가 더 중요한 지를 판단하죠. 즉, 모든 단어를 똑같이 처리하는 것이 아니라 문맥에서 중요한 단어에 더 많은 주의를 기울이는 방식이에요.

✒️ 예제로 확인해 보세요.

예문 : “The old man prepared food while waiting for his son.“

이 문장을 처리할 때, man, food, waiting, son 같은 단어들은 문장의 의미를 결정하는 데 중요한 역할을 해요. 반면, the, while, for, his 같은 단어들은 상대적으로 덜 중요하죠. 이처럼 주의 메커니즘은 문장 내에서 중요한 단어와 그렇지 않은 단어를 구분하고, 중요한 단어에 더 많은 비중을 두며 처리합니다. 아래 이미지를 잠깐 봐 볼까요?

Transformer의 시대 📝

❇️ Transformer (트랜스포머)

트랜스포머는 기존의 RNN 구조를 완전히 배제하고, 오직 어텐션 메커니즘만으로 구성된 네트워크예요. 트랜스포머는 원래 번역을 위한 연구 결과로 등장했죠. 사실 예전에는 번역 작업에 순환 신경망(RNN) 계열이 많이 사용되었어요. 둘은 어떤 차이가 있을까요? RNN이 단어를 순차적으로 처리하는 구조였다면, 트랜스포머는 문장 전체에서 중요한 부분을 동시에 찾아내고 분석할 수 있는 혁신을 가지고 있었어요.

트랜스포머는 Encoder-Decoder(엔코더-디코더) 구조로 이루어져 있어요. 예를 들어, “한 아빠가 아기를 안고 있다”라는 한글 문장이 엔코더에 입력된다고 해 봅시다. 이때, 엔코더는 이 문장에서 “아빠”와 “아기를 안고 있다”라는 중요한 정보를 추출해요. 이 과정에서 아빠가 아이를 안고 있는 상황이라는 개념을 정리하고, 이 정보를 압축해 저장합니다. 바로 아래 이미지처럼요.

ⓒ정정민

이후 디코더는 저장된 정보를 기반으로 영어로 번역된 문장을 생성해요. “A daddy is holding his baby”라는 문장을 만든다면, 디코더는 엔코더가 전달한 정보를 바탕으로 영어 단어들을 조합해 새로운 문장을 창작하는 방식으로 작동해요. 즉, 한글 문장에서 추출된 중요한 정보가 영어로 자연스럽게 변환되면서 번역된 문장이 탄생하는 거죠.

이처럼 어텐션 메커니즘만을 사용한 트랜스포머는 기존의 RNN보다 훨씬 뛰어난 성능을 보여줍니다. 번역 작업에서 정확성과 처리 속도가 크게 향상되겠죠. 현재는 이런 트랜스포머의 구조가 단순히 번역에서 그치지 않고, 텍스트 생성, 요약, 감정 분석 등 다양한 텍스트 처리 작업에서 기본 구조로 자리 잡게 됐어요.

BERT와 GPT,

그리고 LLM으로 발전 🔍

❇️ BERT

BERT는 트랜스포머의 엔코더 구조를 기반으로 설계된 모델이에요. BERT는 문장에서 중요한 정보를 효과적으로 정리하는 데 특화된 모델로, 문장의 앞뒤에서 단어의 의미를 동시에 파악해 더 깊은 문맥을 이해할 수 있어요. 텍스트 분류, 질문 응답, 개체명 인식 등 다양한 텍스트 처리 문제에서 기준 모델로 사용되고 있죠. BERT는 정보 분석과 정리에 강점을 보여, 현재 구글의 AI 챗봇 서비스 BARD(바드)의 근간이 되는 기술로 활용됐어요.

❇️ GPT

GPT는 트랜스포머의 디코더 구조를 기반으로 만들어졌어요. 디코더의 핵심 역할은 데이터 생성이기 때문에 GPT는 문장을 생성하는 작업에 특화되어 있죠. GPT는 앞에 주어진 문장을 바탕으로 자연스럽게 다음 문장을 예측하며, 문장을 이어가는 능력이 뛰어나요. 이러한 GPT는 ChatGPT의 기반이 된 모델로, 자연스럽고 유창한 텍스트 생성에 탁월한 성능을 발휘하며 대화형 AI의 핵심 역할을 하고 있어요.

❇️ LLM

최근에는 BERT와 GPT가 더 방대한 데이터셋과 복잡한 모델 구조로 발전하며, 대규모 언어 모델(LLM)로 자리 잡았어요. LLM은 단순히 번역, 검색, 요약 등 개별 문제 해결에 그치지 않고, 통합된 언어 이해 관점에서 놀라운 성능을 보여주고 있죠. 단어와 문장의 의미를 더 자연스럽고 깊이 있게 이해하며, 텍스트의 미묘한 뉘앙스까지 처리할 수 있는 능력을 갖고 있거든요.

AI는 앞으로 어떻게 발전할까 🤔

앞서 살펴본 것처럼 AI가 텍스트를 읽고 이해하는 과정은 순환 신경망에서 시작해 어텐션 메커니즘을 활용한 트랜스포머, 그리고 BERT와 GPT 같은 대규모 언어 모델(LLM)로 발전해 왔어요. 이제 AI는 단순히 텍스트를 처리하는 것을 넘어, 자연스럽고 깊이 있는 문맥을 이해하고 높은 수준의 새로운 텍스트를 생성하고 있죠.

텍스트 처리의 미래는 더 흥미로울 거예요. 이제는 텍스트 하나만 분석하는 것이 아니라, 이미지, 영상, 음악 같은 다른 형태의 데이터와 결합된 접근이 활발히 연구되고 있거든요. 이러한 멀티모달(Multimodal Model) AI 모델은 서로 다른 형태의 데이터를 한꺼번에 분석하고 이해할 수 있게 때문에 복잡한 문제도 해결할 수 있을 거예요.

또, ChatGPT o1 모델처럼 사고하는 AI가 등장하고 있어요. 기존 모델들이 통계적 확률을 바탕으로 다음 단어를 예측하는 방식이었다면, 새로운 세대의 AI는 더욱 논리적 사고를 통해 문제를 해결하고, 더 나은 결론을 도출하는 방식으로 진화하고 있죠. 이제 AI는 단순한 텍스트 생성기가 아니에요. 인간과 더 깊이 있는 대화를 나누고 복잡한 문제를 해결해 줄 수 있는, 진화한 AI의 모습을 보여줄 테니까요.

글ㅣ정정민 AiLIVE AI 모델 개발 팀장 (블로그, 유튜브)
생성형 AI 기술 기반 스타트업에서 AI 모델 개발 팀을 리딩하고 있습니다. 또한, AI 아카데미 한입딥러닝의 대표입니다. AI 엔지니어가 느끼는 어려움을 공감하고 지식을 나누는 과정을 좋아합니다. 저에 대한 이야기가 궁금한 분들은 저의 블로그와 유튜브 채널을 방문해 주세요!

👉 <AI 개발자가 되고 싶다면> 시리즈 보러 가기

발행일 2024.10.18

이벤트 모두 보기