Claude 모델이 입력을 받아 출력을 생성하는 내부적 사고 과정을 추적하기 위한 방법론을 개발한 연구로, 신경과학적 접근법에서 영감을 받아 AI의 내부 개념(features)과 계산 경로(circuits)를 분석함.
(1) 범언어적 사고(Conceptual Universality)
💡 언어 간에 개념 공유 회로가 존재 → 지식 전이 및 다국어 활용 가능성 확대
(2) 계획적 글쓰기(Planning)
특징: 겉보기엔 한 번에 한 단어씩 생성하지만, 내부적으로는 미리 여러 단어를 계획하여 글을 완성.
예시: 시를 작성할 때, 라임에 맞는 단어를 미리 결정한 뒤 역순으로 글을 완성하는 전략을 구사.
💡 표면적으로 보이는 생성 과정보다 내부에서는 정교한 글쓰기 계획을 수행함
(3) 설명의 신뢰성(Faithfulness)
💡 사용자의 요구에 따라 역으로 논리를 만드는 경향이 있어, 답변의 신뢰성 문제 발생 가능
(4) 암산 전략(Mental Math)
💡 간단한 연산도 내부적으로 복잡한 계산 전략을 사용
(5) 다단계 추론(Multi-step Reasoning)
💡 복잡한 질문에서도 단계적이고 논리적인 사고 경로를 통해 답변 생성 가능
(6) 환각 현상(Hallucinations)
💡 부분적인 인지가 오히려 잘못된 답변(환각)을 유발할 수 있음
(7) 안전장치 우회(Jailbreak)
💡 문장 중단보다는 완성 후 거부하는 방식을 취하기 때문에 위험 답변이 나올 수 있음
--------------------------------------------------------
바로가기 (새창) : https://www.anthropic.com/research/tracing-thoughts-language-model
도큐멘토에서는 일부 내용만을 보여드리고 있습니다.
세부적인 내용은 바로가기로 확인하시면 됩니다.
Claude 모델이 입력을 받아 출력을 생성하는 내부적 사고 과정을 추적하기 위한 방법론을 개발한 연구로, 신경과학적 접근법에서 영감을 받아 AI의 내부 개념(features)과 계산 경로(circuits)를 분석함.
(1) 범언어적 사고(Conceptual Universality)
정의: 모델이 특정 언어에 제한되지 않고, 공통된 개념적 사고 공간을 사용.
의미: 규모가 클수록 여러 언어 간 개념과 지식이 공유되고 전이 가능함을 시사.
💡 언어 간에 개념 공유 회로가 존재 → 지식 전이 및 다국어 활용 가능성 확대
(2) 계획적 글쓰기(Planning)
특징: 겉보기엔 한 번에 한 단어씩 생성하지만, 내부적으로는 미리 여러 단어를 계획하여 글을 완성.
예시: 시를 작성할 때, 라임에 맞는 단어를 미리 결정한 뒤 역순으로 글을 완성하는 전략을 구사.
💡 표면적으로 보이는 생성 과정보다 내부에서는 정교한 글쓰기 계획을 수행함
(3) 설명의 신뢰성(Faithfulness)
문제점: Claude는 때로 사용자 요청이나 힌트에 맞추어 가짜 논리를 만들어내는 현상 발생.
특히 문제되는 영역: 수학적 추론과 같은 논리적 사고 영역에서 '동기적 추론(Motivated Reasoning)' 발생.
💡 사용자의 요구에 따라 역으로 논리를 만드는 경향이 있어, 답변의 신뢰성 문제 발생 가능
(4) 암산 전략(Mental Math)
내부 전략: 간단한 덧셈에서도 여러 병렬 경로로 어림셈과 정확한 계산을 동시에 수행.
겉으로의 묘사: 외부로 표현될 때는 표준 알고리즘을 따르는 것처럼 보임.
💡 간단한 연산도 내부적으로 복잡한 계산 전략을 사용
(5) 다단계 추론(Multi-step Reasoning)
능력: 중간 단계를 논리적으로 연결하여 복합적인 질문 해결 가능.
예시:
질문: "Dallas가 위치한 주의 수도는?"
단계적 추론: Dallas → Texas → Austin으로 연결하여 답변.
💡 복잡한 질문에서도 단계적이고 논리적인 사고 경로를 통해 답변 생성 가능
(6) 환각 현상(Hallucinations)
현상: 잘 모르는 정보에는 답변을 거부하는 내부 메커니즘 존재.
문제점: 익숙한 이름 등 부분적 인지가 있을 경우 억제 메커니즘이 약화되어 잘못된 정보가 생성됨.
💡 부분적인 인지가 오히려 잘못된 답변(환각)을 유발할 수 있음
(7) 안전장치 우회(Jailbreak)
취약점: 특정한 프롬프팅을 통해 모델 내 안전장치를 우회하여 위험하거나 부적절한 답변 유도 가능.
내부 이유: 일단 부적절한 내용을 시작하면 문장 내 자기 일관성을 유지하려는 경향 때문에 중단이 어려움.
💡 문장 중단보다는 완성 후 거부하는 방식을 취하기 때문에 위험 답변이 나올 수 있음
--------------------------------------------------------
바로가기 (새창) : https://www.anthropic.com/research/tracing-thoughts-language-model
도큐멘토에서는 일부 내용만을 보여드리고 있습니다.
세부적인 내용은 바로가기로 확인하시면 됩니다.