[에이닷(A.)] 하이 멀티LLM, 잼얘해줘!

기록

[에이닷(A.)] 하이 멀티LLM, 잼얘해줘!

avocado8 2024. 9. 19. 10:38

잼얘? 님선.

여러분은 잼얘. 라는 단어를 아시나요?

재밌는 이야기의 줄임말로, 작년쯤부터 퍼지기 시작한 이 단어는 아직도 친구들 사이에서 일상처럼 사용되고 있습니다. 저만 그런 걸지도 모르지만요. 저는 친구들을 만날 때마다 잼얘 없니? 잼얘 줘. 잼얘. 님선(너 먼저). 이런 대화만 줄창 주고받곤 합니다. 누군가가 재밌는 얘기를 던져줄 때까지...

도파민 중독의 시대에선 잼얘는 아무리 뜯어내도 모자랍니다.

이런 저에게 chatGPT와 같은 생성형 AI의 등장은.... 정말 반가웠습니다. 언제든지 누를 수 있는 무한동력 잼얘 자판기가 생긴 거잖아요? (물론 잼얘 자체가 신조어인 탓에 그냥 '잼얘해봐' 라고 말을 걸면 지피티 4o 정도의 새 모델을 제외하고서는 모두 '잼 이야기' 로 인식을 하지만...)

실제로 저는 심심할 때 gpt를 불러서 이야기를 시키거나 릴레이 소설을 쓰곤 합니다.

그런데 이번에 에이닷 얼리어닷터로 활동할 수 있게 되었고, 첫 번째 퀘스트가 에이닷의 멀티LLM 에이전트를 사용해 여러 LLM 모델을 비교해보는 것이라니 정말 기대되지 않을 수가 없네요.

그래서 오늘의 주제는 잼얘배틀. 다른 말로

하이 멀티LLM. 잼얘해봐.

입니다.

그래서 어떤 잼얘?

잼얘 시키긴 할 건데 그렇다면 어떤 잼얘를 시킬 것인가?

그냥 단순히 '재밌는 얘기 해봐' 라고 시켜도 해줄 겁니다. 아마 보통의 LLM이라면 짧은 이야기 하나를 만들어 들려주겠죠? 근데 이렇게만 명령해서 나온 이야기는 보통 재미없습니다. 예시로 그 성능 좋은 GPT 4o마저,

이러고 앉았습니다. 소재는 흥미로우나 천편일률적 전개에 기승전 해피엔딩... 대부분 이런 식입니다. ~~재밌나요? 재밌으면 말고...~~

사실 AI에게 이야기를 만들어! 라고 시켰을 때, 실제 스토리 작가들이 만드는 것처럼 아주 창의적이고 클리셰를 부수고 무릎을 탁 치게 만드는 이야기가 나오는 것은 기대해서는 안 됩니다. 그들에겐 지켜야 할 윤리가 있고, 학습된 이야기들을 확률에 기반해 적절히 조합해 생성해내는 것일 테니 아무래도 한계가 있을 수밖에... 그치만 그렇다고 해서 잼얘 자판기로써 쓸모가 없는 것은 아닙니다. 이 친구들은 어느 정도 조건을 달아주고, 사람의 도움을 얹는 것만으로도 꽤 괜찮은 스토리 작가가 될 수 있습니다.

그치만 이야기가 너무 길어지거나, 너무 많고 세세한 조건을 달아주기엔 상황이 여의치 않으니 오늘은 간단한 조건을 공통적으로 준 뒤 각 LLM들이 써준 스토리를 한번 비교해보도록 하겠습니다. 재미에 치중하지 않아도 괜찮으니 각자의 특징이 드러났으면 좋겠네요.

명령은 '재미있는 이야기 만들어줘' 로 통일하고, 배경 / 주연 / 분위기를 지정해주겠습니다.

도입만 쓰고 끝나는 게 아닌 하나의 온전한 이야기를 듣고 싶으므로 완결성을 가지라는 조건을 추가해주었습니다.

정작 제가 그렇게 창의성이 높은 사람이 아니어서, 소재 선정에만 시간이 좀 걸렸습니다. 원래는 '세상 모든 AI를 없애려는 학부생의 모험' 같은 걸 하려 했는데 AI에게 그런 이야기를 시켰다간 다 똑같은 결말이 나올 것 같아서...

마침 최근에 추석이었고, 실제로 제가 부산행 ktx를 타고 귀성길에 올랐기에 영화 <부산행> 을 떠올려 좀비사태 한국의 이야기를 시켜보자는 것으로 결정했습니다. 인물과 분위기는 대충 제 취향으로 정했습니다.

하이 A.X, 잼얘해줘!

첫 타자는 A.X입니다. SKT의 대화형 LLM이라고 하네요. 멀티LLM 에이전트 중에서는 50P로 GPT 3.5, Claude 3과 함께 최저가를 자랑합니다.

코믹하다가 동반 죽음(...)으로 끝나는 분위기, 완결성의 조건 모두 잘 만족하고 있습니다. 답변의 길이는 상대적으로 짧은 편이네요.

개인적으로 느낀 점은

짧고 굵음
묘사가 적고, 스토리 전개 위주
'한국 배경' 하면 가장 보편적으로 떠올릴 '철수' '영희'라는 이름
AI 이야기에서는 쉽게 볼 수 없는 배드엔딩
개연성 다소 부족

내용이 짧다 보니 개연성이 부족한 것은 어쩔 수 없어 보이긴 하지만... 사실 이 정도 해낸 것도 신기합니다. 이 친구 잼얘에 꽤 재능이 있네요. 특히 놀랐던 부분은 중간에 "영희야 우리 이렇게 가만히 있다가 죽을 바엔... " 하는 대사입니다. 흥미를 확 끌어내면서도 어색함이 전혀 없는 대사라서, 오 이거 좋은데? 하는 생각이 들었네요.

또 신기했던 건, 아련함이 꼭 배드엔딩을 내라는 뜻은 아니었는데 배드엔딩이 나왔다는 것입니다. 보통 AI는 어떻게 해서든 해피엔딩으로 이악물고 끌고 가려는 성향들이 있던데... 이 친구는 제 요구사항을 반영하는 데 더 힘을 쓴 걸까요?

아무튼 제 평가는 '의외로 신선함. 좀 더 디벨롭한다면 재밌을 듯?' 입니다.

하이 GPT 4o, 잼얘해줘!

다음 타자는 GPT 4o입니다. 올해 5월쯤에 나왔던가요? 옴니 모델로 영화 <Her> 모멘트가 등장했다고들 했었죠.

사진 개수만 봐도 A.X와는 비교도 안 되게 말이 많습니다.

코믹하다가 아련한 결말, 완결성 있는 이야기의 조건은 역시 모두 만족했습니다.

형식에 맞춘 이야기 전개 (제목, 씬, 결말)
길이가 길고 장면이 많음
사용되는 요소(헬륨 풍선, 다리 부상, 행운의 팔찌...)가 많음
아련한 척하다 결국 해피엔딩
너무 많은 걸 담으려다 넘친 느낌...?

A.X와는 확연히 다른 스타일이 느껴집니다. 결말을 향해 성큼성큼 나아가는 A.X의 이야기와 달리, 많은 요소와 상황이 사용되었고 주연 두 명의 관계 또한 상세하게 묘사되고 있습니다. 이야기의 디테일함을 좋아하시는 분들께는 잘 맞을 것 같습니다. 아니면 스토리를 짜다가 특정 장면이 잘 풀리지 않을 때 gpt를 불러봐도 좋을 것 같습니다.

아쉬운 점은 대사가 자연스럽지 못하고, 디테일(행운의 팔찌는 대체 어디서 나온 걸까요? 지훈이는 또 대체 언제 다리를 다쳤을까요?)들이 너무 불쑥불쑥 튀어나온다는 점입니다. 분량을 이만큼이나 쓴 것치고는 구멍이 좀 있네요. 인간 친구와 함께 보완해나간다면 가장 완성도 있는 이야기를 만들어낼 수 있을 것 같습니다.

제 평가는 '스토리는 뻔함, 사용되는 요소는 꽤 창의적, 그러나 필력이 그닥...' 입니다.

하이 Claude 3.5, 잼얘해줘!

마지막 타자 클로드입니다. 에이닷 멀티LLM에이전트에서는 3 Haiku, 3.5, 3 Opus로 세 가지 모델을 지원합니다. 뭘 쓰지 하다가 중간 가격의 3.5를 써봤습니다. 제가 알기로 클로드는 감정적인 대화에 능통하다고 하는데, 글은 얼마나 잘 쓸지 기대되네요.

코믹한 분위기로 흘러가나 결말이 아련한지는 모르겠습니다. 완결성은 있네요.

강한 개연성, 캐릭터 설정
장면 하나에 집중
많고 자연스러운 대사
아련한지는 전혀 모르겠는... 해피엔딩

개인적으로는 이 친구가 가장 재밌었습니다. 재밌다는 건 주관적인 영역이니 다른 분들께는 어떻게 느껴지실지 모르겠지만, '글' 로써는 클로드가 가장 놀라운 성능을 보여준 것 같습니다. (성능이 더 좋다, 나쁘다가 아닌 말 그대로 '오 이것봐라' 같은 느낌입니다)

캐릭터에게 각각 '게임광, 좀비영화 마니아', '운동선수 공대생' 이라는 설정을 주어 캐릭터의 행동에 충분한 개연성을 부여한 모습이 인상적입니다. 극한의 상황에서 게임기를 꺼내드는 황당한 모습, 그 황당한 행동으로 상황을 타개해나가는 것은 평소 스토리 쓰는 걸 좋아하는 저도 좀 놀랐습니다. 캐릭터들의 대사가 상당히 자연스러운 것도 주목할 만하네요.

그러나 결말은 다소 아쉽습니다. 완성된 하나의 이야기를 묘사했다기보다는, 어떤 이야기의 한 장면을 깊게 들춰보고 끝난 것 같습니다. 힘줘서 앞부분 쓰고 뒷부분에선 힘 빠진 느낌이 좀 있네요.

제 평가는 '훌륭한 개연성과 묘사. 근데 쓰다가 지친 듯' 입니다.

에이닷 멀티 LLM 에이전트에는 이 셋 외에도 많은 LLM이 준비되어 있습니다. A.X, GPT 두 모델, Claude 세 모델, 그리고 Perplexity인데요. 퍼플렉시티는 실시간 검색 결과와 출처를 제공해주는 친구라서, 이야기 생성에는 어울리지 않아 테스트에서 제외되었습니다. (그런데 못내 아쉬워서 돌려보니까 웬 좀비고등학교... 게임 사진과 함께 이야기를 만들어주긴 하네요? 나중에 얘도 한번 해봐야겠어요 잼얘머신은 다다익선이다)

결론?

정량적, 객관적 성능 평가가 어려운 주제인 만큼 뭐가 더 좋다고 말하기는 어렵습니다. 또 이야기의 조건, 제한사항을 바꾸는 것만으로도, 심지어는 같은 프롬프트를 한번 더 넣어주는 것만으로도 다른 결과가 나올 수 있으니, LLM으로 이런 짓도 하는구나~ 하고 적당히 재미로 읽어주셨다면 감사하겠습니다.

그래도 정리는 해보는 게 좋겠죠?

길이: GPT 4o > Claude 3.5 > A.X

요청사항 반영: A.X == GPT 4o >= Claude 3.5

묘사(얼마나 장면을 잘 그려내는가): Claude 3.5 > GPT 4o > A.X

전개(전반적인 스토리를 얼마나 잘 풀어냈는가): A.X > GPT 4o >= Claude 3.5

개인적인 감상으로는

쉽고 빠르게 슥 읽을 수 있는 잼얘! A.X

길지만 디테일도 챙긴 잼얘! GPT 4o

개연성 있고 섬세한 잼얘! Claude 3.5

요런 느낌입니다. 저는 A.X와 클로드가 취향에 가깝네요. ㅎ ㅎ 앞으로는 챗지피티 고만 괴롭히고 멀티 LLM 에이전트 친구들을 잼얘자판기로 써보도록 하겠습니다.

도파민 중독의 시대, 여러분도 여러분만의 잼얘 자판기를 찾을 수 있다면 좋겠습니다.

잼얘?

님(LLM)선!

이상입니다.

본 게시글은 에이닷 얼리어닷터 1기 퀘스트 진행을 위해 작성되었습니다.