스토리텔링, 단어 퍼즐 게임 등에서 빙보다 능력 떨어지다는 평가
구글의 '바드'와 마이크로소프트(MS) '빙' 간 인공지능(AI) 챗봇 경쟁이 시작된 가운데 바드가 빙의 기능에 미치지 못한다는 평가를 받고 있다.
23일 미 경제매체 비즈니스 인사이더에 따르면 지난 21일부터 구글은 바드의 이용이 허용된 미국과 영국에서 일부 이용자들을 대상으로 바드에 대한 성능 테스트를 시작했다.
AI시장에서는 세계 검색 시장을 장악하고 있는 구글인만큼 챗GPT를 등에 업은 MS를 넘어설까하는 기대감이 있었지만 결과는 이에 미치지 못했다. 테스트 기간이지만 이용자들은 바드에 대한 실망감을 드러내고 있다.
펜실베이니아대 와튼스쿨의 에단 몰릭 부교수는 "바드는 빙이나 GPT-4만큼 학습 도구로서 능력이 있어 보이지 않는다"고 평가했다.
그는 "시를 짓는 데에 바드는 경쟁자인 빙보다 많이 뒤처져 있다"며 "프랑스의 39행으로 된 시 시스티나를 짓는데 바드는 고전하는 것 같다"고 설명했다.
이야기를 지어달라는 스토리텔링 면에서도 바드는 빙에 비해 비교적 평범한 내용을 만들었다. 더욱이 단어 퍼즐 게임에서 바드의 능력이 크게 떨어졌다는 평도 나왔다.
게임 제작자들에 따르면 한 쌍의 단어가 무엇을 의미하는지를 맞추는 온라인 퍼즐 '투퍼 구퍼'에서 바드는 모든 문제에 오답을 제출했다.
오픈AI가 최근 출시한 GPT-4가 96%, 인간이 82%의 정답률을 나타낸 것과는 큰 격차를 보였다. 이 퍼즐을 만든 콜린 월독은 "충격적으로 실망스럽다"며 "바드는 프롬프트가 주어졌을 때 단 하나도 풀지 못했다"고 실망감을 나타냈다.
이어 "바드는 일부 퍼즐에서는 정답에 가까이 가긴 했지만, 궁극적으로는 정답을 맞추지 못했다"고 설명했다.
댓글 많은 뉴스
국힘 김상욱 "尹 탄핵 기각되면 죽을 때까지 단식"
[단독] 경주에 근무했던 일부 기관장들 경주신라CC에서 부킹·그린피 '특혜 라운딩'
민주 "이재명 암살 계획 제보…신변보호 요청 검토"
국회 목욕탕 TV 논쟁…권성동 "맨날 MBC만" vs 이광희 "내가 틀었다"
최재해 감사원장 탄핵소추 전원일치 기각…즉시 업무 복귀