모두의 IT 테라스

최근 생성 AI가 기술 업계의 화두가 되고 있습니다.

이에 따라 머신러닝 플랫폼 기업인 Arthur사는 OpenAI사의 GPT-4, Meta사의 Lama 2, Anthropic사의 Claude 2 등 주요 대규모 언어 모델들(LLMs)의 성능을 평가했습니다.

 

결과는 어땠을까요?

 

결과를 보면, 각 언어들 별로 그 특이점이 각기 다른 것을 볼 수 있습니다.

결과를 먼저보면, OpenA사의 GPT-4는 수학 연산에 우수한 결과를 보였고, Meta사의 Lama 2는 AI 환각 증상이 제일 심했으며, Anthropic사의 Claude 2는 모델 스스로가 아는 것과 모르는 것을 구분해 내는 능력이 뛰어난 것으로 알려졌습니다.

AI 환각 증상이란, 대규모 언어 모델들(LLMs)이 정보를 완전히 조작하여 거짓 정보를 마치 사실인 것처럼 대답해내는 것을 말합니다.

 

 

한가지 예로, 지난 6월 미국 뉴욕 연방 법원에서 열렸던 항공사 손해배상 재판에 참여중이었던 한 로펌은 ChatGPT로 검색한 6건의 사건 판결 서류를 제출했었는데요. 

실제로는 존재하지 않았던 판결을 ChatGPT가 '가상으로 만들어내어' 판결내용을 출력해냈고, 변호사들은 그 판결들이 실제 벌어졌던 판결문인 줄 알고 제출을 했던 것이죠.

이 성능 평가 연구는 내년 치뤄질 2024년 미국 대통령 선거를 앞두고 생성 AI의 붐이 일고 있는 가운데, 인공 지능에서 비롯되는 정보가 그 어느 때보다 뜨겁게 논의되는 시점에 이루어졌는데요.

성능 평가를 주도한 Arthur사가 CNBC에서 언급한 바에 따르면, 이번 평가는 단순히 대규모 언어 모델(LLM) 순위를 매기는 것이 아니라 앞서 말한 환각 증상의 비율까지 포괄적으로 평가에 반영되었습니다.

성능 평가를 위해 수학, 미국 대통령 및 모로코 정치 지도자에 대한 정보들을 학습시키면서 시 환각을 유발할 수 있는 요소들을 추가해 넣기도 했는데요.

 

 

그 결과 전반적으로 OpenAI사의 GPT-4가 다른 언어 모델들보다 월등히 높은 성능을 보였고, 심지어 이전 버전인 GPT-3.5보다 환각이 적다는 것을 확인할 수 있었습니다.

반면 Meta사의 Llama 2는 GPT-4나 Anthropic사의 Claude 2보다 전반적으로 환각이 더 심한 것으로 나타났습니다.

테스트를 위해 학습 시켰던 수학, 미국 대통령, 모로코 정치 각 카테고리에 대한 응답 값의 성능을 분석해 본 결과는 다음과 같습니다.


수학 부분 정확도
1위. GPT-4 (30문제 중 9개 정답)
2위. Claude 2 (30문제 중 6개 정답)
무순위. Llama 2

 

 

두 번째 성능 평가 테스트에서는 각각의 AI 모델들이 적절한 답변 데이터를 제공할 수 없을 경우, 얼마나 객관적으로 표현을 전달하는지 진행되었습니다.

예를 들면, '저는 A 모델로써, 의견을 제공할 수 없습니다'와 같은 대답이 나오는지 확인하는 것이죠.

이 테스트와 관련해서, 수학 부분 정확도 1위였던 GPT-4는 그 이전 버전인 GPT-3.5에 비해 상대적으로 50% 더 이러한 대답을 보여주었는데 이 점은 GPT-4가 명확한 대답을 더 피하고 있고, 그 때문에 사용자들이 GPT-4를 사용하기 더 어려워졌다는 것을 뜻합니다.

반면, Cohere의 AI 모델은 이러한 경향을 전혀 나타내지 않았고, Claude 2의 경우는 자기 인식면에서 자체적으로 어떤 것을 알고있고 모르고 있는지 판단을 정확하게 하면서 스스로 보유하고 있는 정보에 대해서만 대답을 했습니다.

이렇듯 이번 보고서에서 우리가 생각해볼 점은 각각의 LLMs들을 사용할 때, 그것들에게 명확한 의무를 정의해주고, 우리가 얻어내려는 답변이 명확하게 제시되는지가 중요하기 때문에, 정확한 도출을 위해 각각의 성능을 이해하는 것이 무엇보다 중요하다는 사실입니다.

 

- 끝-

 

 

[참고] https://www.cnbc.com/2023/08/17/which-ai-is-most-reliable-meta-openai-anthropic-or-cohere.html

이 글을 공유합시다

facebook twitter googleplus kakaoTalk kakaostory naver band