AI가 스도쿠를 푸는 법: '어려운 훈련, 똑똑한 실행'의 비밀

이 논문을 주목해야하는 이유

우리는 인공지능이 단순히 글을 쓰는 것을 넘어, 논리적인 문제 해결 능력을 갖추기를 바랍니다. 예를 들어, 복잡한 스도쿠 퍼즐을 풀거나, 수학 문제를 증명하고, 컴퓨터 프로그램을 짜는 일들 말이죠. 이런 작업들은 정해진 순서대로만 해서는 풀기 어렵습니다. 어떤 문제를 먼저 풀어야 할지 똑똑하게 판단하는 능력이 필요합니다.

이 논문은 AI에게 이런 '똑똑한 판단력'을 부여하는 새로운 방법을 제시합니다. 이 방법을 사용하면, AI는 어떤 문제를 먼저 풀어야 가장 쉬운지 스스로 판단하고 해결해 나갑니다. 이 기술은 미래에 AI가 더 어려운 추론과 계획을 수행하는 데 중요한 열쇠가 될 수 있습니다.

연구 배경

AI가 문장을 만들거나 문제를 푸는 방식에는 크게 두 가지가 있습니다.

첫 번째는 '순차적 모델'입니다. 이 AI는 마치 우리가 책을 왼쪽에서 오른쪽으로 읽듯이, 정해진 순서대로 단어를 하나씩 만들어냅니다. 대부분의 챗봇이 이 방식을 사용합니다. 이 방법은 순서가 중요한 글쓰기에는 좋지만, 스도쿠처럼 순서가 정해져 있지 않은 문제에는 약합니다.

두 번째는 '빈칸 채우기 모델'입니다. 이 AI는 처음에는 모든 칸이 비어있는 상태에서 시작하여, 무작위 순서로 빈칸을 하나씩 채워나갑니다. 이 방식은 순서에 얽매이지 않아 유연하지만, 훈련 과정이 훨씬 어렵습니다. 왜냐하면 어떤 순서로 빈칸을 채워야 할지, 모든 가능성을 다 배워야 하기 때문입니다. 이 연구는 바로 이 '빈칸 채우기 모델'의 단점은 극복하고 장점은 극대화하는 방법을 찾기 위해 시작되었습니다.

쉽게 이해하기

이 논문의 핵심 아이디어를 스도쿠 퍼즐에 비유해 봅시다.

'순차적 모델'에게 스도쿠를 풀게 하는 것은, 스도쿠 판의 왼쪽 위 첫 번째 칸부터 오른쪽 아래 마지막 칸까지 순서대로 숫자를 채우게 하는 것과 같습니다. 당연히 이렇게는 문제를 풀 수 없습니다. 중간에 막히면 더 이상 진행할 수 없죠.

반면, '빈칸 채우기 모델'은 우리가 스도쿠를 푸는 방식과 비슷합니다. 우리는 스도쿠 판 전체를 훑어보고, 가장 확실하게 숫자를 채울 수 있는 '가장 쉬운 칸'부터 공략합니다. 쉬운 칸을 하나 채우면, 그게 단서가 되어 다음으로 쉬운 칸을 찾을 수 있게 됩니다.

이 논문이 제안하는 새로운 방식은 바로 이것입니다. MDM을 훈련시킬 때는 온갖 어려운 상황을 모두 겪게 해서 힘들게 훈련시킵니다. 이것이 바로 '최악의 상황을 대비한 훈련'입니다.

하지만 실제로 문제를 풀 때는, AI가 현재 상태에서 가장 자신 있는 빈칸이 어디인지 스스로 판단하게 합니다. 그리고 그 칸부터 채워나가도록 길을 열어줍니다. 이것이 바로 '최선의 계획을 세운 실행'입니다. 이렇게 했더니, AI의 문제 해결 능력이 폭발적으로 향상되었습니다.

핵심 정리

1. 순차 모델의 한계: 왼쪽에서 오른쪽으로 순서대로만 작업 가능. 스도쿠 같은 논리 퍼즐에 약함.

2. 빈칸 채우기 모델의 특징: 순서에 상관없이 빈칸을 채울 수 있어 유연하지만, 훈련이 매우 어려움.

3. 최악 대비 훈련: MDM은 훈련 과정에서 무작위 순서로 빈칸을 채우는 수많은 어려운 문제들을 학습함.

4. 최선 계획 실행: 실제로 문제를 풀 때는, AI가 가장 확신하는 '가장 쉬운 빈칸'부터 순서대로 채워나가도록 함.

5. 놀라운 성능 향상: 이 '똑똑한 순서 정하기' 방법 하나만으로, 기존 7% 미만이던 스도쿠 정답률이 90% 가까이 치솟았음.

깊게 이해하기

이 연구의 핵심은 MDM의 '추론' 방식을 바꾼 것입니다. 기존 MDM은 훈련 때와 마찬가지로 무작위 순서로 빈칸을 채웠습니다. 하지만 연구팀은 AI가 각 빈칸에 대해 얼마나 확신하는지를 나타내는 '확률' 값을 이용했습니다.

연구팀은 두 가지 '똑똑한 순서 정하기' 전략을 실험했습니다.

1. 최고 확률: 각 빈칸마다 AI가 예측한 숫자들 중 가장 높은 확률 값을 기준으로 순위를 매겨, 가장 자신 있는 칸부터 채웁니다.

2. 확률 격차: 각 빈칸에서 가장 유력한 숫자와 두 번째로 유력한 숫자의 확률 값 차이를 계산합니다. 이 격차가 클수록 헷갈리지 않고 확실하다는 뜻이므로, 격차가 가장 큰 칸부터 채웁니다.

실험 결과, 특히 '확률 격차' 방식이 스도쿠 문제 해결에 매우 효과적이었습니다. 스도쿠에서는 종종 두세 개의 숫자를 놓고 고민하는 경우가 많은데, 이 전략이 그런 애매한 상황을 피해 가장 확실한 선택을 하도록 유도했기 때문입니다.

더 놀라운 점은, 이 방법으로 성능이 개선된 MDM이 심지어 '정답 순서를 미리 알려주며 훈련시킨' 순차 모델보다도 더 뛰어난 성능을 보였다는 것입니다. 즉, AI가 스스로 최적의 순서를 찾아가며 문제를 푸는 것이, 사람이 정해준 순서를 배우는 것보다 더 효과적일 수 있다는 점을 증명한 것입니다.

연구의 중요성과 차별점

이 연구는 AI 모델의 성능이 훈련 방식뿐만 아니라 '어떻게 사용하느냐'에 따라 극적으로 달라질 수 있음을 보여줍니다. 기존에는 모델의 성능을 높이기 위해 더 크고 복잡하게 훈련시키는 데 집중했지만, 이 연구는 훈련된 모델을 더 똑똑하게 활용하는 방법만으로도 엄청난 발전을 이룰 수 있다는 새로운 관점을 제시했습니다.

특히, AI가 스스로 문제의 구조를 파악하고 '쉬운 부분부터 어려운 부분으로' 해결 순서를 계획하는 능력을 보여주었다는 점에서 큰 의미가 있습니다. 이는 AI가 단순한 패턴 암기를 넘어, 인간과 유사한 논리적 문제 해결 전략을 가질 수 있음을 시사합니다.

연구의 활용 가능성

이 '똑똑한 순서 정하기' 기술은 정해진 순서가 없는 모든 논리적 문제 해결 분야에 적용될 수 있습니다. AI의 추론 능력을 한 단계 끌어올려, 더 복잡하고 중요한 임무를 맡기는 데 기여할 것입니다.

• 활용 분야

• 코딩 및 프로그래밍: 전체 프로그램의 구조를 보고, 가장 핵심적이거나 쉬운 함수부터 작성하도록 유도하여 버그를 줄이고 개발 효율을 높임.

• 수학 문제 풀이: 복잡한 증명 과정에서 어떤 보조 정리를 먼저 증명해야 할지, 어떤 식을 먼저 풀어야 할지 순서를 계획함.

• 과학 연구: 단백질 구조 예측이나 신약 개발 과정에서, 수많은 변수 중 가장 영향력이 크거나 예측하기 쉬운 부분부터 분석하여 연구 속도를 높임.

• 계획 및 스케줄링: 복잡한 물류 시스템이나 프로젝트 관리에서, 가장 효율적인 작업 순서를 동적으로 찾아내어 자원 낭비를 최소화함.

논문 원문 링크 바로가기 >

Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

Jaeyeon Kim · Kulin Shah · Vasilis Kontonis · Sham Kakade · Sitan Chen

arXiv preprint arXiv:2502.06768.