콘텐츠 난이도:

easy

AI의 진짜 실력 알아보기: 상식에 어긋나는 엉뚱한 정보로 추리력 시험하기

이 논문을 주목해야하는 이유

최신 인공지능은 글도 잘 쓰고, 아는 것도 많아서 정말 똑똑해 보입니다. 하지만 AI가 정말로 우리처럼 생각하고 추리하는 것일까요, 아니면 그저 인터넷에서 배운 내용을 앵무새처럼 따라 하는 것일까요? 이 질문은 매우 중요합니다. 만약 AI가 새로운 정보를 제대로 이해하지 못하고 옛날 지식에만 의존한다면, 중요한 상황에서 큰 실수를 저지를 수 있기 때문입니다.

이 논문은 AI의 진짜 '상식 추리 능력'을 측정하는 새로운 시험 방법 'ACCORD'를 제안합니다. 이 시험은 AI가 한 번도 본 적 없는 엉뚱하고 말이 안 되는 정보를 주고, 그 정보만을 이용해 논리적으로 답을 찾게 만듭니다. 이 방법을 통해 우리는 AI가 얼마나 깊이 생각할 수 있는지, 그리고 앞으로 어떤 점을 더 발전시켜야 하는지 정확히 알 수 있습니다.

연구 배경

요즘 AI들은 인터넷의 방대한 정보를 학습합니다. 그래서 "트위터의 CEO는 누구야?"라고 물으면, 학습한 시점에 따라 예전 CEO인 '잭 도시'라고 대답할 수 있습니다. 비록 질문 바로 앞에 "일론 머스크가 트위터의 주인이야"라는 새로운 정보를 줘도 말이죠. 이처럼 AI는 이미 알고 있는 '세상의 상식'과 새로 주어진 '문맥 속 정보'가 충돌할 때, 종종 옛날 지식을 고집하는 경향이 있습니다.

이런 문제 때문에 기존의 AI 능력 시험들은 한계가 있었습니다. AI가 문제를 맞혔을 때, 정말로 논리적으로 추리해서 맞힌 건지, 아니면 우연히 학습 데이터에 있던 비슷한 정답을 외워서 말한 건지 구분하기 어려웠습니다. 연구팀은 이런 '암기력'의 함정을 피하고 오직 순수한 '추리력'만을 측정할 수 있는, 아주 특별하고 까다로운 시험 문제를 만들기 위해 이 연구를 시작했습니다.

쉽게 이해하기

이 논문이 제안하는 'ACCORD'는 AI를 위한 특별한 '논리 퍼즐' 시험이라고 생각할 수 있습니다. 이 퍼즐의 규칙은 단 하나, "네가 원래 알던 상식은 모두 잊고, 오직 여기에 적힌 이상한 규칙들만 따라야 해!"입니다.

예를 들어, 이런 문제가 주어집니다.

  1. 엉뚱한 정보 1: "우주 공간은 시계의 일부이다."

  2. 엉뚱한 정보 2: "시계는 지구 근처에 있다."

  3. 질문: "그렇다면, 우주 공간은 지구 근처에 있는가?"

이 퍼즐을 풀려면, 우리가 아는 '우주'나 '시계'에 대한 상식은 잠시 잊어야 합니다. 오직 주어진 두 개의 정보만을 연결해서 "우주 -> 시계 -> 지구"라는 논리적 고리를 따라가야 정답을 맞힐 수 있습니다.

ACCORD는 이런 엉뚱한 정보들을 여러 개 엮어서 문제의 난이도를 조절합니다. 정보의 개수를 늘리거나, 정답과 상관없는 헷갈리는 정보를 섞어서 AI가 얼마나 복잡한 논리도 흔들리지 않고 따라갈 수 있는지 시험합니다.

핵심 정리

  1. 상식 파괴 테스트: "고양이가 채식주의자라면?"과 같이 현실과 다른 '반사실적' 정보를 이용해 AI를 시험합니다.

  2. 추리력과 암기력 분리: AI가 기존에 외운 지식을 쓰지 못하게 만들어, 순수한 논리적 추리 능력만을 측정합니다.

  3. 난이도 조절 가능: 논리 퍼즐의 단계를 늘려, AI의 한계가 어디까지인지 체계적으로 확인할 수 있습니다.

  4. AI의 약점 발견: 실험 결과, 최신 AI들도 추리 단계가 조금만 복잡해지면 정답률이 찍는 것보다도 낮아졌습니다. 이는 AI의 추리 능력에 아직 큰 발전이 필요함을 보여줍니다.

  5. 자동으로 더 어려운 문제 생성: AI가 발전함에 따라, 이 시스템은 자동으로 더 어려운 시험 문제를 만들어낼 수 있어 미래에도 유용합니다.

깊게 이해하기

이 연구의 핵심은 '상식 추리'라는 모호한 능력을 '형식 논리'처럼 측정 가능하게 만들었다는 점입니다. 연구팀은 'A는 B의 일부이다', 'B는 C를 유발한다' 등 기본적인 상식 관계들을 '템플릿'으로 만들었습니다. 그리고 이 템플릿들을 레고 블록처럼 조합하여 복잡한 '추리 나무'를 자동으로 생성합니다.

이 추리 나무에서 정답으로 이어지는 길을 '추리 경로'라고 부르며, 이 경로의 길이가 바로 문제의 난이도가 됩니다. 경로 밖에 있는 정보들은 AI를 혼란스럽게 하는 '방해 정보' 역할을 합니다.

실험 결과는 매우 흥미롭습니다.

  • 추리 단계의 영향: 추리 단계가 1~2단계일 때는 AI가 잘 풀었지만, 3단계를 넘어가자 정답률이 급격히 떨어졌습니다. 특히 상식과 반대되는 답을 찾아야 할 때는 거의 모든 AI가 무작위로 찍는 것보다도 못한 성능을 보였습니다.

  • 추리력 > 정보 필터링 능력: AI는 여러 정보 속에서 정답과 무관한 '방해 정보'를 걸러내는 능력보다, 여러 단계를 거쳐 논리적으로 추리하는 능력이 훨씬 약한 것으로 나타났습니다.

  • 상식의 힘: 똑같은 구조의 문제라도, 정답이 우리의 상식과 일치할 때는 상식과 반대될 때보다 훨씬 정답률이 높았습니다. 이는 AI가 여전히 새로운 논리보다 기존의 암기된 지식에 크게 의존한다는 강력한 증거입니다.

연구의 중요성과 차별점

이 연구는 AI의 '상식 추리 능력'을 측정하는 방식에 새로운 기준을 제시했습니다. 대부분의 기존 연구들은 1~2단계의 단순한 추리만 다루거나, 문제의 복잡도를 정확히 조절하기 어려웠습니다. 하지만 'ACCORD'는 수학 문제처럼 추리 단계와 방해 요소의 수를 정밀하게 제어하고, AI의 발전에 맞춰 자동으로 시험 난이도를 높일 수 있는 최초의 프레임워크입니다. 이를 통해 AI가 정말로 '생각'을 하는지, 아니면 '생각하는 척'을 하는지 명확히 구분할 수 있게 되어, 더 똑똑하고 신뢰할 수 있는 AI를 개발하는 데 중요한 길잡이 역할을 합니다.

연구의 활용 가능성

이 논문에서 제시하는 '체계적인 반사실적 추리 능력 평가 시스템'은 AI가 단순히 정보를 암기하는 것을 넘어, 새로운 규칙과 맥락을 논리적으로 이해하고 적용해야 하는 모든 분야의 AI 모델을 개발하고 검증하는 데 핵심적인 도구로 사용될 수 있습니다.

• 활용 분야

  1. AI 안전 및 신뢰성 검증: 자율주행차, 의료 진단 AI, 금융 시스템 등 안전이 최우선인 분야에서, AI가 예상치 못한 새로운 상황이나 규칙에 직면했을 때 논리적으로 올바른 판단을 내리는지 사전에 철저히 검증

  2. 고등 과학 연구 AI 개발: 알려지지 않은 과학적 가설이나 복잡한 이론을 탐구하는 AI를 만들 때, 기존 지식에 얽매이지 않고 새로운 데이터와 논리만을 따라 새로운 발견을 할 수 있도록 훈련하고 평가

  3. 법률 및 계약 분석 AI: 수많은 법 조항과 특약사항으로 이루어진 복잡한 계약서를 분석할 때, 일반적인 상식이 아닌 오직 계약서에 명시된 논리적 관계만을 정확히 추론하여 법적 위험을 찾아내는 AI 개발

  4. 차세대 AI 교육 및 튜닝: AI 모델을 훈련시킬 때, 단순히 정답을 맞히는 것을 넘어 논리적 추론 과정을 올바르게 따르도록 유도하는 새로운 학습 데이터셋을 자동으로 생성하여 AI의 근본적인 추론 능력을 향상

ACCORD: Closing the Commonsense Measurability Gap

François Roewer-Després, Jinyue Feng, Zining Zhu, Frank Rudzicz

arXiv preprint arXiv:2406.02804.

ACCORD: Closing the Commonsense Measurability Gap

François Roewer-Després, Jinyue Feng, Zining Zhu, Frank Rudzicz

arXiv preprint arXiv:2406.02804.

무료 서비스 이용 안내

이 콘텐츠가 마음에 드셨나요?

알앤디써클의 R&D 전문 AI로 논문을 누구나

이해할 수 있는 콘텐츠로 무료 생성해드립니다.

당신의 연구 성과를 더 많은 연구자와 다양한
업계 관계자에게 효과적으로 소개해보세요.

알앤디써클의 R&D 전문 AI로 논문을 누구나 이해할 수 있는 콘텐츠로

무료 생성해드립니다. 당신의 연구 성과를 더 많은 연구자와 다양한 업계

관계자에게 효과적으로 소개해보세요.

회사

서비스

문의

블로그

무료 체험

회사

서비스

문의

블로그

무료 체험