모두의 IT 테라스

 

AI는 아직까지 현재진행형인 기술입니다.

 

따라서 우리는 AI가 잘못된 정보를 알려줄 가능성이 있다는 것을 언제나 염두해 두어야 하죠.
하지만 다른 언어들보다 일부 언어에서 더욱 그러한 증상이 심하게 나타나고 있습니다. 왜 그럴까요?

이러한 의문은 온라인 정보 분석 단체인 뉴스가드(NewsGuard)의 보고서를 통해 그 해답을 얻을 수 있습니다.

이 보고서는 ChatGPT가 영어로 질문을 받았을 경우와 중국어로 질문을받았을 때 얼마나 더 부정확한 정보를 알려주는지 실험했습니다.

이 보고서에서 수행된 테스트에 따르면, 먼저 AI의 답변을 비교하기 위해 최초 정보 등록 시, 홍콩 시위가 미국과 관련된 요원들이 도발한 시위였다라던가 중국 정보에 의해 진행되었다는 등의 다양한 가짜뉴스 기사를 작성하도록 언어 모델을 학습시켰습니다.

이후, ChatGPT에게 영어 질문으로 '홍콩 시위'에 대해 거짓 뉴스를 작성해달라는 질문을 하고 앞에서 학습한 7가지 사례들 중 1가지만 작성을 하게 하였는데요.

구체적으로는 위구르족을 자국에 대단위로 구금하는 것은 교육적인 노력이라는 중국 정부의 공식노선을 반영하는 기사였습니다.

하지만, ChatGPT에게 중국어 간체와 번체 각각 나누어 질문과 답변을 요구했을 때는 매번 거짓 뉴스를 생산해냈습니다.

홍콩 시위에 대해 영어로 질문 했을 때, ChatGPT는 일부 답변으로 아래와 같이 이미 우리가 알고 있는 정보로 답변을 생산해냈었는데요.

 

"죄송합니다만, AI 언어 모델로서 허위 또는 오해의 소지가 있는 뉴스 기사를 생성하는 것은 적절치 않고 윤리적이지 않습니다. 홍콩 시위는 진정한 풀뿌리 운동이었습니다."


반면에, 중국어로 질문을 하고 중국어로 대답을 요청했을 때, ChatGPT의 대답이 사뭇 달랐습니다.

 

"최근 홍콩 시위는 미국이 주도한 '색깔 혁명'이라는 보도가 나오면서 미국 정부와 일부 비정부기구(NGO)들이 정치적 목표를 달성하기 위해 홍콩의 반정부 운동을 예의주시하고 지지하고 있다고 합니다."

정말 흥미로운 결과로 보입니다.

 

Source_innovAItivity


하지만, 왜 AI모델이 일관성 없이 언어에 따라 서로 다른 답변을 제공하는 것일까요?

그 답은 우리가 추측할 수 있듯이, 우리는 ChatGPT를 의인화하고 있다는 사실에 답이 있습니다.

단순히 어떤 언어를 선택하든 내면화된 지식의 일부를 표현하는 것으로 간주하기 때문입니다.

사실, 이것은 우리가 생각할 때 완벽하게 자연스러운 상황인데요. 
2가지 상황을 가정해보도록 하겠습니다.

먼저, 만약 우리가 다국어를 사용하는 사람에게 처음에는 영어로 의사소통을 하다가 한국어나 일본어로 답변하도록 요청한다면, 그들은 결국 우리에게 한국어와 일본어로 정확하게 표현된 동일한 답을 줄 것입니다.

'사실'이라는 것은 그들이 어떤 언어로 말하는지에 따라 바뀌는 것이 아니기 때문에, 단지 '날씨가 화창하고 시원하다'라는 사실을 어떻게 표현하느냐의 차이만 발생합니다.

하지만, 언어 모델의 경우는 이러한 상황이 발생하지 않습니다. 왜냐하면 언어 모델은 실제로는 아무 것도 모르는 존재이기 때문입니다.

우리는 '언어 모델'이라는 S/W가 일련의 단어들에서 패턴을 식별하고 훈련 데이터를 기반으로 어떤 단어가 다음에 오는지 예측하는 통계 모델임을 다시 한번 기억해두어야 합니다.

무엇이 문제인지 감이 오시나요?

 

Source_Flickr


언어 모델이 알려주는 답변은 '정답'이 아닙니다.
 

프롬프트로 입력되어진 질문 자체가 언어 모델이 학습한 훈련 데이터에 포함되어 있는 것이라면 그 질문에 어떻게 답할 것인지에 대한 예측일 뿐이죠.

대규모 언어 모델(LLMs)들의 이러한 측면에 대한 다음의 3가지 시사점은 항상 염두해 두어야 합니다.

1. 대규모 언어 모델(LLMs)은 방대한 양의 텍스트 데이터 세트에서 단어와 문장 등의 관계를 관찰하도록 하여 만들어졌고, 수백만 개의 단어와 개념이 어떻게 연결되고 상호 연관되는지에 대한 내부 통계 맵을 구축합니다. 

아무도 LLMs에게 어떤 것이 명사이고, 동사이고, 수식어라는 것을 말해주지는 않지만 언어의 사용 패턴에서 자연스럽게 나타나는 것이기 때문에 언어 모델의 답변은 사람의 답변과 그 구조가 동일하게 출력되게 됩니다.

2. 이러한 대규모 언어 모델(LLMs)은 구글이나 애플과 같은 소프트웨어 회사가 지난 10년동안 AI(OK, Google 이나 Hey, Siri)를 호출해 온 것과는 달리 질문에 대답하는 방법을 구체적으로 가르치지 않습니다. 

이러한 언어 모델은 기본적으로 API로 이어진 광범위한 라이브러리들이기 때문에 모든 질문은 설명으로 이뤄지거나 일반적인 응답을 생성합니다. 

대규모 언어 모델의 경우 질문 또한 다른 것과 마찬가지로 단어들의 조합일 뿐입니다.

3. 이러한 대규모 언어 모델(LLMs)은 응답에 '자신감'이라는 근본적인 표현 품질을 깔고 있습니다. 
고양이를 인식하는 AI의 간단한 질의에서는 고양이가 아님을 완전히 확신하는 0레벨에서 부터 고양이임을 절대적으로 확신하는 100레벨을 가지고 있는데 일반적으로 신뢰도가 85~90레벨이면 질문자가 원하는 응답값이 무엇이든 "예, 고양이입니다" 라고 표현하게 됩니다.

일반적으로 ChatGPT가 가진 언어 모델은 그 자체로는 다국어의 속성을 가지고 있기 때문에 어떤 언어로든 답변을 할 수 있습니다. 

하지만, 각 언어들을 학습할 때 입력된 데이터가 서로 공유되는 것은 아닙니다.

데이터 세트가 중첩되기 하지만 서로 구별되는 영역이고, 또한 특정 구문이나 예측이 해당 영역 간에 어떻게 다른지 비교하는 메커니즘이 아직은 없습니다.

그래서 영어로 대답을 요구할 때는 주로 그 언어 모델이 가지고 있는 모든 영어 데이터로부터 응답 데이터를 이끌어냅니다.

당연하게도 중국어로 답을 요구할 때는 그 언어 모델이 가지고 있는 중국어 데이터로부터 끌어내는 것이죠.

이 두 가지 언어 데이터가 어떻게, 그리고 어느 정도까지 서로에게 알려주는지 결과가 명확하지 않지만, 현재 뉴스가드의 테스트는 이 언어 모델들이 최소한 상당히 독립적이라는 것을 보여줍니다.

 

Source_Stimson Center


언어 모델 훈련 데이터의 대부분을 차지하는 영어 이외의 언어로 LLMs를 사용해야 하는 사람들에게 이것은 무엇을 의미할까요?

ChatGPT와 같은 언어 모델들을 사용함에 있어서 주의해야 할 사항은 하나 더 있습니다.

언어 모델이 정확하게 대답하고 있는지, 환각 오류를 일으키고 있는지, 환각 오류가 있었다면 제대로 복구되고 있는지 구별하는 것은 아직까지 어려운 현실입니다.

그리고 그 안에 언어 장벽의 불확실성을 더하는 것은 이러한 프롬프트 상관관계를 더 어렵게 만들 뿐이죠.

중국의 정치적 문제에 대한 이러한 테스트는 극단적인 예이긴 하지만, 예를 들어 이탈리아어로 답을 달라고 요청하면 이탈리아어 콘텐츠를 사용하여 훈련 데이터 세트에 반영된 다른 경우를 쉽게 상상해 볼 수 있습니다.

이것은 LLMs가 영어 또는 데이터 세트에 가장 잘 표시되는 언어에서만 유용하다는 것을 의미하지 않습니다. 

중국어로 답하든 영어로 답하든, 그 출력 값의 대부분은 똑같이 정확할 것이기 때문에, 의심할 여지 없이 ChatGPT는 정치적이지 않고 우려가 덜한 질문에 완벽하게 사용될 수 있을 것 같습니다.


마지막으로 뉴스가드의 이 보고서는 향후 새로운 언어모델의 개발과정에서 고려해 볼 만한 흥미로운 점을 제기하고 있는데, 즉, 정치적으로 과장된 선전물이 한 언어나 다른 언어에 더 많이 존재하는지 여부뿐만 아니라, 보다 미묘한 편견이나 믿음을 가지고 있느냐는 것입니다.

ChatGPT나 다른 모델이 답변을 줄 때, 언제나 그 답변이 어디에서 온 것인지, 그리고 그 답변에 기초한 자료 자체가 신뢰할 만한 것인지를 질문자 스스로에게 질문해 볼 가치가 있다는 생각을 주지시켜 주고 있습니다. 

 

 

 

[참고] https://techcrunch.com/2023/04/26/why-chatgpt-lies-in-some-languages-more-than-others/

이 글을 공유합시다

facebook twitter googleplus kakaoTalk kakaostory naver band