AI한테 '메모장'을 쥐어줬더니 — LLM 기억력을 끌어올린 스크래치패드 연구

AI와 한참 대화하다 보면 한 번쯤 겪는 일이 있습니다. 스무 줄쯤 전에 분명히 중요한 이야기를 했는데, 잠시 뒤 그 내용을 물어보면 마치 그런 말 한 적 없다는 듯 반응합니다.

답답한 경험입니다. 그런데 이는 AI가 “깜빡한” 결과가 아닙니다. 그 사실을 적어둘 곳 자체가 없었던 것입니다.

이번에 소개할 연구가 바로 그 빈틈을 건드립니다. 미국 매사추세츠 애머스트대(UMass Amherst)와 캐나다 앨버타대 연구팀이 낸 논문인데, 제목이 “Beyond a Million Tokens” — 백만 토큰을 넘어서, 정도 되는 제목입니다. 해결책이 놀랍도록 단순합니다. AI에 메모장을 쥐어주자는 것입니다.

컨텍스트 윈도우가 크다고 기억력이 좋은 건 아닙니다

먼저 짚고 갈 게 있습니다. 보통 “AI의 기억력” 하면 다들 컨텍스트 윈도우를 떠올립니다.

컨텍스트 윈도우는 모델이 한 번에 볼 수 있는 글의 양입니다. 토큰 단위로 세는데, 토큰 하나가 대략 단어 4분의 3 정도라고 보면 됩니다. 요즘 모델들은 이 수치를 대단히 자랑합니다. 백만 토큰, 어떤 것은 천만 토큰입니다. “윈도우가 이렇게 크니까 다 넣어도 된다”가 마케팅 메시지입니다.

그런데 여기 함정이 있습니다. 윈도우가 크다고 기억을 잘하는 게 아닙니다.

연구자들이 예전부터 지적해온 게 있는데, 긴 글 속에 특정 정보를 깊숙이 묻어두면 모델이 그걸 잘 못 찾습니다. 흔히 “lost in the middle”(중간에서 길 잃기)이라고 부릅니다. 그러니까 백만 토큰 윈도우라는 건 그 백만 토큰을 읽을 수 있다는 뜻이지, 그걸 다 잘 써먹는다는 뜻이 아닙니다.

읽는 것과 기억하는 것은 다른 일입니다.

그래서 연구팀이 한 일 — 어려운 시험 + 메모장

연구팀은 두 가지를 만들었습니다.

하나는 더 빡센 시험입니다. “BEAM”이라는 벤치마크인데, 대화 100개로 구성돼 있습니다. 짧은 것도 있고, 길이가 진짜 말도 안 되는 것도 있습니다. 10만 토큰부터 천만 토큰까지. 천만 토큰짜리 대화는 사실 대부분의 모델이 윈도우에 아예 다 못 담습니다. 그게 핵심입니다.

여기에 사람이 직접 검증한 질문 2,000개가 붙습니다. 그냥 “이 사실 찾아봐” 수준이 아닙니다. 모순 정리(화요일엔 이렇게 말했는데 금요일엔 반대로 말했습니다, 뭐가 맞습니까?), 사건 순서, 정보 업데이트, 사용자 취향 추적, 멀리 떨어진 두 사실을 엮어야 답이 나오는 다단계 추론 같은 능력 10가지를 따로 봅니다. 실제 긴 대화가 어떻게 굴러가는지에 훨씬 가깝습니다.

두 번째가 그 메모장 시스템입니다. 이름이 “LIGHT”. 사람의 기억 구조를 본떠서 세 가지를 동시에 굴립니다.

작업 기억(워킹 메모리) — 그냥 최근 몇 턴을 그대로 들고 있습니다. 방금 한 얘기, 단기 기억입니다.

일화 기억(에피소딕 메모리) — 대화 전체를 색인으로 만들어 보관합니다. 매 턴마다 핵심 사실과 요약을 뽑아서 검색 가능한 형태로 저장해뒀다가, 나중에 질문이 오면 관련된 부분만 꺼내옵니다. ‘RAG’를 들어보셨다면, 바로 그 방식을 대화 기록 자체에 적용한 것입니다.

그리고 주인공, 스크래치패드(메모장)입니다.

매 턴이 끝나면 모델이 방금 오간 얘기를 한 번 곱씹어서 중요한 부분을 자기 말로 적어놓습니다. 대화 전체를 통째로 베끼는 게 아니라, 골라서 요약한 노트입니다.

여기서 똑똑한 게 하나 있습니다. 메모장이 무한정 길어지면 그것도 결국 긴 글이 됩니다. 그래서 3만 토큰을 넘어가면 시스템이 그걸 1만 5천 토큰짜리로 압축해버립니다. 논문에서는 이걸 사람 기억이 굳어지는 방식에 비유합니다. 우리도 지난 화요일을 통째로 기억하진 않습니다. 요점만 남깁니다.

답할 때는 이 셋을 다 같이 봅니다. 방금 한 대화, 보관해둔 색인, 그리고 직접 적어둔 메모장.

결과는 — 대화가 길수록 차이가 벌어집니다

효과가 있을까요. 수치가 그 답을 상당히 분명하게 보여줍니다. 대화가 길어질수록 차이가 커집니다.

10만 토큰: 일반 모델 대비 약 44~49% 향상
100만 토큰: 60~76% 향상
1,000만 토큰: GPT-4.1-nano는 107%, Llama-4-Maverick은 156% 향상

천만 토큰 구간은 애초에 일반 모델이 전체를 못 보는 영역이라 격차가 클 수밖에 없습니다. 연구팀은 GPT-4.1-nano, Gemini-2.0-flash, Qwen2.5-32B, Llama-4-Maverick 여러 모델에 다 적용해봤습니다. 특정 모델만의 우연이 아니라는 것입니다.

솔직하게 짚을 부분도 있습니다. 모든 조건을 평균 내서 가장 강한 비교 대상과 붙이면 향상폭은 3.5~12.7% 정도로 훨씬 점잖습니다. 눈 튀어나오는 세 자릿수 수치는 대화가 극단적으로 길 때 얘기입니다. 뭐, 그게 원래 제일 필요한 구간이긴 합니다.

윈도우 경쟁의 반대편

이 연구를 보면서 계속 드는 생각이 있습니다. 업계가 그동안 엉뚱한 부분을 팔아왔다는 생각을 지울 수 없습니다.

지난 2년 동안 마케팅 포인트는 계속 윈도우 크기였습니다. 윈도우 크다 = 숫자 크다 = 기억력 좋다, 이런 식이었습니다. 그런데 이 논문은 조용히, 근거를 갖고 그 등식이 틀렸다고 말합니다. 윈도우가 크면 읽을 양이 많아질 뿐, 무엇을 남길지 판단이 좋아지는 것은 아닙니다.

이는 이 블로그에서 앞서 다룬 흐름과 이어집니다. 이전에 소개한 “어텐션을 넘어서” 글 — 트랜스포머의 셀프 어텐션을 대체할 구조를 찾는 연구를 다뤘고, 긴 코드를 한눈에 담는 Cerebras의 롱컨텍스트 코딩 모델도 소개했습니다. 그 작업들은 모두 윈도우 자체를 키우거나 비용을 낮추는 방향이었습니다. 이번 LIGHT는 정반대 학파입니다. 윈도우는 그대로 두고, 거기 흘러가는 내용을 똑똑하게 추리는 방식입니다.

두 흐름은 경쟁보다는 결국 수렴할 것이라고 봅니다. 효율 좋은 윈도우 위에 메모장을 얹는 그림입니다.

그리고 이 연구가 지금 나온 것이 우연이 아닙니다. 최근 계속 다룬 주제가 AI 에이전트로의 전환입니다. 구글의 ‘에이전트 시대’ 선언, 앤트로픽의 Vercept 인수가 그 예입니다. 에이전트야말로 옛날 방식이 가장 크게 깨지는 지점입니다.

챗봇 대화는 짧고, 끝나면 버립니다. 그런데 며칠~몇 주씩 옆에서 같이 일하는 에이전트는 그 자체가 하나의 끊기지 않는 긴 대화입니다. 월요일에 본인이 수정한 것, 프로젝트 마감이 바뀐 것, 본인이 어떤 도구를 더 선호하는지 — 모두 기억해야 합니다. 기억 없는 모델을 그 자리에 앉히면 천천히, 답답하게 무너집니다. 결국 메모장은 챗봇용 기능이라기보다 에이전트의 전제 조건에 가깝습니다.

한 가지 더 있습니다. 이 아이디어가 마음에 드는 이유는 욕심이 없어서입니다. 새 아키텍처를 발명한 것도 아니고, 기반 모델을 다시 학습시키는 것도 아닙니다. 기존 LLM을 그대로 두고, 외부에서 노트를 추출·압축·검색하는 방식으로 감쌉니다. 그래서 제품에 빨리 들어올 수 있는 종류의 발전입니다.

물론 뒤집어 보면, 부품이 많아진다는 뜻이기도 합니다. 뭐가 “중요한지” 모델이 잘못 판단하면, 틀린 사실을 자신 있게 메모장에 적어두고 대화 끝까지 들고 갑니다. 메모장은 거기 적는 판단력만큼만 똑똑합니다.

그래도 방향은 맞다고 봅니다. 사람 기억에서 제일 인간적인 부분은 용량이 아니었습니다. 편집이었습니다. 뭘 적고 뭘 흘려보낼지 끊임없이 조용히 결정하는 것. AI 연구가 메모장 한 장씩 같은 결론에 도달하는 것, 그게 지켜볼 만한 대목입니다.

※ 이 글은 정보 제공 목적입니다.

원문 출처 / Source: https://arxiv.org/abs/2510.27246

이미지: Domenico Loia / Unsplash

recent posts

about

이것이 좋아요:

댓글 남기기응답 취소

recent posts

about