본문 바로가기
생성AI와 IT세계

생성형AI이해, 멀티모달AI, 에이전트AI에 대해 알아보자

by 거름 2024. 11. 26.
반응형

안녕하세요! 오늘은 요즘 핫한 기술, 생성형 AI에 대해 알아보려 합니다. 이 기술이 무엇인지, 어떻게 발전해왔는지, 그리고 현재 어떤 혁신을 일으키고 있는지 궁금하지 않으신가요? 지금부터 함께 알아보시죠!

 

 

 

 

 

생성형 AI란 무엇인가요?

생성형 인공지능(Generative AI)은 프롬프트에 대응하여 텍스트, 이미지, 기타 미디어를 생성할 수 있는 일종의 인공지능(AI) 시스입니다. 생성형 AI는 입력 트레이닝 데이터의 패턴과 구조를 학습한 다음 유사 특징이 있는 새로운 데이터를 만들어냅니다.

단순히 데이터를 분석하는 것을 넘어, 데이터를 기반으로 새로운 콘텐츠를 창출하는 기술입니다. 이를테면, 챗봇이 자연스러운 문장을 만들어내거나, AI가 그림을 그리고 음악을 작곡하는 기술을 말하죠.

대규모 데이터 세트에서 패턴을 학습해 새로운 데이터를 만들어내는 이 기술은 텍스트, 이미지, 음성 등 다양한 형태의 콘텐츠를 생성할 수 있습니다. 생성형 AI는 단순한 자동화 이상의, 진정한 창작 도구로 자리 잡고 있습니다.

 

 

 

생성형 AI의 발전 과정

생성형 AI가 처음부터 지금처럼 발전된 것은 아니었습니다. 아래에서 그 흥미로운 여정을 간단히 살펴보겠습니다.

1. 초기 시대 (1950~1960년대)

1950, 앨런 튜링은 인간과 기계의 상호작용 가능성을 시험하는 튜링 테스트를 제안하며 AI의 가능성을 열었습니다.

1960년대에는 초기 챗봇인 엘리자(ELIZA)가 등장해 간단한 대화를 구현했죠. 지금으로 보면 아주 기초적인 형태였지만, 당시로서는 혁신적이었습니다.

 

2. 기술 도약기 (1980~1990년대)

이 시기에는 순환 신경망(RNN)과 장단기 메모리(LSTM) 기술이 개발되어, 연속 데이터를 이해하고 처리하는 데 획기적인 진전을 이뤘습니다.

음성 인식이나 기계 번역 같은 복잡한 문제를 해결하는 데 사용되며, AI가 점점 더 똑똑해졌습니다.

 

3. 현대적 도약 (2010년대)

2014, GAN(생성형 적대 신경망)의 등장으로 AI가 고해상도 이미지와 같은 창작물을 만들 수 있게 되었죠.

2018, 오픈AI가 발표한 GPT-2 모델은 자연스러운 텍스트 생성 능력으로 세상을 놀라게 했습니다.

 

2000년대 후반부터 딥러닝의 출현은 이미지 및 비디오 처리, 텍스트 분석, 음성 인식 및 기타 작업의 발전과 연구를 주도했습니다.

 

2014년에 Variational AutoencoderGenerative Adversarial Network 발전 통해 복잡한 데이터의 판별 모델이 아닌 생성형 모델을 학습하는 최초의 실용적인 심층신경마잉 탄생했습니다.

 

2019년에는 GPT-2가 비지도 학습을 파운데이션 모델로 다양한 작업으로 일반화하는 능력을 시연했습니다

 

2021년에 트랜스포머 기반 픽셀 생성 모델인 DALL-E의 출시에 이어 Midjourney 및 스테이블 디퓨전은 자연어 프롬프트에서 실용적인 고품질 인공 지능 예술의 출현을 표시했습니다.

 

2023년에 GPT-4가 출시되었다. 마이크로소프트 리서치 팀은 "합리적으로 인공 일반 지능(AGI) 시스템의 초기(아직 불완전한) 버전으로 볼 수 있다"고 결론지었습니다.

 

 

현재, 생성형 AI는 어디까지 왔을까요?

오늘날 생성형 AI는 단순히 신기한 기술을 넘어, 산업 전반에 걸쳐 혁신을 이끌고 있습니다.

예술: AI가 직접 그린 그림이 경매에 오르고, AI 작곡가가 만든 음악이 연주됩니다.

의료: 환자 데이터를 분석해 AI가 직접 의료 이미지를 생성하고, 질병 진단을 돕고 있습니다.

엔터테인먼트: 영화와 게임 제작에서 AI가 가상 세계를 창조하는 데 활용됩니다.

특히, 생성형 AI 기반 챗봇과 이미지 생성 툴은 기업과 개인 모두에게 실질적인 도움을 주고 있습니다. AI를 활용한 개인화된 마케팅, 자동화된 콘텐츠 제작 등도 이제는 현실이 되었습니다.

 

 

생성형 AI의 주요 종류

텍스트 생성 AI

  • ChatGPT: OpenAI에서 개발한 대화형 AI로, GPT-3.5와 GPT-4 모델을 기반으로 합니다. 자연스러운 대화와 다양한 텍스트 생성이 가능하며, 블로그 원고, 마케팅 카피, 소설 등 다양한 형식의 텍스트를 생성할 수 있습니다.
  • Gemini: 구글에서 개발한 생성형 AI로, 자연어 처리와 이해에 강점을 지니고 있습니다.
  • Copilot: 마이크로소프트의 AI 도구로, 코드 작성과 관련된 지원을 제공합니다.

 

이미지 생성 AI

  • DALL-E: OpenAI에서 개발한 이미지 생성 AI로, 텍스트 설명을 기반으로 이미지를 생성합니다.
  • Midjourney: 텍스트 프롬프트를 통해 예술적인 이미지를 생성하는 AI로, 독특한 스타일의 이미지를 만들어냅니다.
  • Stable Diffusion: 오픈소스 이미지 생성 모델로, 다양한 스타일의 이미지를 생성할 수 있습니다.

 

음성 생성 AI

  • Google Cloud Text-to-Speech: 구글의 음성 합성 서비스로, 텍스트를 자연스러운 음성으로 변환합니다.
  • Amazon Polly: 아마존의 음성 합성 서비스로, 다양한 언어와 음성을 지원합니다.
  • 클로바 더빙: 네이버의 음성 합성 서비스로, 한국어를 포함한 다양한 언어의 음성을 제공합니다.

 

최신 기술 동향

최근 생성형 AI 분야에서는 멀티모달(Multimodal) 기술이 주목받고 있습니다. 이는 텍스트, 이미지, 음성 등 여러 형태의 데이터를 동시에 처리하고 생성하는 기술로, 다양한 응용 분야에서 활용되고 있습니다.

예를 들어 [삼성 가우스2]는 삼성전자가 자체 개발한 2세대 생성형 AI 모델로, 언어, 코드, 이미지를 통합적으로 처리하는 멀티모달 기능을 갖추고 있습니다.

이러한 멀티모달 AI는 다양한 입력 데이터를 동시에 처리하여 더욱 풍부하고 정확한 결과를 도출할 수 있어, 향후 다양한 산업 분야에서의 활용이 기대됩니다.

 

 

모달에 따른 입력

생성형 AI는 유니모달(unimodal) 또는 멀티모달(multimodal)일 수 있다. 유니모달 시스템은 오직 하나의 입력만 받는 반면 멀티모달 시스템은 둘 이상의 입력을 받을 수 있다.[16] 예를 들어 오픈AIGPT-4의 한 버전은 텍스트와 이미지 입력을 둘 다 수용한다

 

  • -텍스트: 단어나 낱말 분석으로 훈련되는 생성형 AI 시스템으로는 GPT-3, LaMDA, LLaMA, BLOOM, GPT-4 등이 있다.(대형 언어 모델 문서 참고) 자연어 처리, 기계 번역, 자연어 생성을 할 수 있으며 다른 작업을 위해 파운데이션 모델로서 사용할 수 있다.[18] 자료 집합에는 북코퍼스, 위키백과 등이 포함된다.
  • -코드: 자연어 문구뿐 아니라 대형 언어 모델은 프로그래밍 언어 텍스트상에서 훈련이 가능하므로 새로운 컴퓨터 프로그램을 위한 소스 코드 생성을 할 수 있다.[19] 그 예로 오픈AI 코덱스 등이 있다.
  • -이미지: : 텍스트 캡션이 있는 이미지 집합에서 훈련되는 생성형 AI 시스템으로는 구글 브레인, DALL-E, Midjourney, 스테이블 디퓨전 등이 있다.(인공지능 예술, 생성형 예술, 합성 미디어 문서 참고) 이들은 텍스트 대 이미지 생성 및 신경 스타일 전송(NST)에 사용된다.[20] 데이터 집합으로는 LAION-5B 등이 있다.
  • -분자: 아미노산 서열 또는 분자 표현에서 훈련되는 생성형 AI 시스템으로는 DNA나 단백질을 표현하는 단순화된 분자입력 라인입력 시스템(SMILES) 등이 있다. 알파골드 등은 단백질의 구조 예측 및 신약 개발에 사용된다.[21] 다양한 생물 데이터 집합이 데이터 집합으로 사용된다.
  • -음악: MusicLM 등의 생성형 AI 시스템은 '왜곡된 기타 리프(riff)의 차분한 바이올린 멜로디'와 같은 텍스트 문구를 기반으로 새로운 음악 샘플을 생성하기 위해 텍스트 주해와 더-불어 녹음 음악의 오디오 파형을 가지고 훈련이 가능하다.[22]
  • 오디오: 가우디오랩의 FALL-E 등 이미지나 텍스트 등을 입력하면 AI가 백색 잡음에서 해당하는 소리를 자동으로 생성해 내는 기술이다.[23]
  • -비디오: 어노테이션이 있는 영상으로 훈련된 생성형 AI는 시간 일관적 비디오 클립을 생성할 수 있다. 그 예로 RunwayML에 의한 Gen1[24]과 메타 플랫폼스의 메이크-어-비디오(Make-A-Video) 등이 있다.[25]
  • -로봇 동작: 로봇 시스템 움직임을 통해 훈련된 생성형 AI는 모션 플래닝을 위한 새로운 궤적을 생성할 수 있다. 예를 들어 구글 리서치의 UniPi는 "파란색 그릇을 집어", "노란 스폰지로 그릇을 닦아"와 같은 프롬프트를 사용하여 로봇 팔의 움직임을 통제할 수 있다

 

멀티모달 AI와 에이전트 AI의 비교

에이전트 AI(Agentic AI)는 최근 주목받는 최신 기술 동향 중 하나입니다. 가트너는 202510대 전략 기술 트렌드 중 하나로 에이전트 AI를 선정하였으며, 이는 AI가 자율적으로 작업을 수행하고 결정을 내리는 능력을 갖춘 시스템을 의미합니다.

이러한 기술은 다양한 산업 분야에서 업무 자동화와 효율성 향상에 기여할 것으로 기대됩니다.

 

멀티모달 AI와 에이전트 AI는 인공지능 분야에서 각기 다른 역할과 기능을 수행하며, 다양한 산업에서 혁신을 이끌고 있습니다. 두 기술의 차이점과 성공 사례를 살펴보겠습니다.

  • 멀티모달 AI: 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하고 이해하는 AI 기술입니다. 이를 통해 인간과 유사한 방식으로 정보를 통합하여 더 정확하고 포괄적인 결과를 도출합니다.
  • 에이전트 AI: 자율적으로 작업을 수행하고 결정을 내리는 능력을 갖춘 AI 시스템으로, 특정 목표를 달성하기 위해 환경과 상호작용하며 학습하고 행동합니다. 이는 주로 로봇 공학, 자율주행, 게임 AI 등에서 활용됩니다

 

성공 사례 분석

멀티모달 AI의 성공 사례

  • OpenAI의 DALL·E: 텍스트 설명을 기반으로 이미지를 생성하는 모델로, 멀티모달 AI의 대표적인 사례입니다. 사용자가 입력한 텍스트를 시각적으로 표현하여 예술, 디자인 등 다양한 분야에서 활용되고 있습니다.
  • 삼성전자의 '삼성 가우스2': 삼성전자는 멀티모달 AI를 적용한 AI 모델 '삼성 가우스2'를 공개하였습니다. 이는 텍스트, 이미지, 음성 등 다양한 데이터를 통합하여 사용자와의 상호작용을 향상시키는 데 중점을 두고 있습니다.

 

에이전트 AI의 성공 사례

  • 구글의 AlphaGo: 딥마인드에서 개발한 바둑 AI로, 자율적인 학습과 결정을 통해 인간 최고 수준의 바둑 기사들을 상대로 승리를 거두었습니다. 이는 강화학습을 활용한 에이전트 AI의 대표적인 성공 사례입니다.
  • 테슬라의 자율주행 시스템: 테슬라는 자율주행 차량에 에이전트 AI를 적용하여, 차량이 스스로 주변 환경을 인식하고 주행 경로를 결정하도록 하였습니다. 이는 교통사고 감소와 교통 흐름 개선에 기여하고 있습니다.

 

 

기업의 성공 요인 분석

OpenAI: 방대한 데이터와 고성능 컴퓨팅 자원을 활용하여 멀티모달 AI 모델을 개발하였으며, 연구 결과를 공개하여 AI 커뮤니티의 발전에 기여하였습니다.

멀티모달 AI의 성공 사례로 언급된 OpenAIDALL·E 모델에 대해 자세히 알아보시려면 아래 링크를 참고하시기 바랍니다:

DALL·E 2 - OpenAI: DALL·E 2에 대한 상세 정보와 기능을 확인할 수 있습니다.

OpenAI Labs - DALL·E 2: DALL·E 2를 직접 체험해볼 수 있는 페이지입니다.

https://openai.com/dall-e-2

 

 

 

삼성전자: 자체적인 AI 연구소와 협력을 통해 멀티모달 AI 기술을 제품에 적용하였으며, 사용자 경험 향상을 위한 지속적인 투자를 하고 있습니다.삼성전자는 20241121일 온라인으로 개최된 '삼성 개발자 콘퍼런스 코리아 2024'에서 자체 개발한 2세대 생성형 인공지능(AI) 모델인 '삼성 가우스2'를 공개했습니다.

 

삼성 가우스2의 주요 특징:

멀티모달 처리: 언어, 코드, 이미지 등 다양한 데이터 유형을 동시에 처리할 수 있는 통합 멀티모달 모델입니다.

 

모델 구성: 서비스 용도에 따라 세 가지 모델로 구성되어 있습니다:

  • 콤팩트(Compact): 제한된 컴퓨팅 환경에서도 효율적으로 작동하도록 설계된 소형 모델로, 온디바이스(On-Device) 환경에서 최적화된 성능을 제공합니다.
  • 밸런스드(Balanced): 클라우드 기반으로 성능과 속도 면에서 안정성과 효율성의 균형을 맞춘 모델입니다.
  • 슈프림(Supreme): 최고 성능을 목표로 하는 고성능 모델로, '전문가 혼합(MoE, Mixture of Experts)' 기술을 활용하여 학습과 추론 과정에서 계산량을 줄이고 성능과 효율성을 높였습니다.

 

언어 및 프로그래밍 언어 지원: 모델에 따라 9~14개국의 언어와 다양한 프로그래밍 언어를 지원합니다. 자체적으로 거대언어모델(LLM) 학습 안정화 기법을 개발하여 적용하고, 자체 '토크나이저(Tokenizer)'를 설계하여 지원하는 언어에 대한 효율성을 극대화했습니다.

 

성능 향상: '밸런스드''슈프림' 모델은 기존 오픈소스 생성형 AI 모델들과 비교하여 다양한 언어 답변 생성, 코딩 등 주요 지표에서 동등 이상의 성능을 제공합니다. 또한, 시간당 처리 속도는 1.5~3배 이상 향상되어 AI의 답변 생성이 빨라지고, 사용자 대기 시간이 줄어들어 효율적인 작업이 가능합니다.

 

삼성의 활용 사례:

  • 코드아이(code.i): 사내 소프트웨어 개발자를 지원하는 코딩 어시스턴트 서비스로, 최근 '삼성 가우스2' 모델로 업그레이드되어 DX부문의 사업부 및 일부 해외 연구소에서 활용되고 있습니다. 서비스 시작 시점 대비 현재 월별 사용량이 약 4배 이상 증가했으며, 삼성전자 DX부문 전체 소프트웨어 개발자의 약 60%가 사용하고 있습니다.
  • 삼성 가우스 포탈: 문서 요약, 번역, 메일 작성 등 DX부문 직원들의 다양한 사무 업무를 빠르고 효율적으로 지원하는 대화형 AI 서비스로, 지난 4월에는 해외 법인으로 서비스가 확대되었습니다.

 

전경훈 삼성전자 DX부문 최고기술책임자(CTO) 겸 삼성리서치장은 "삼성전자는 인공지능과 데이터 분석과 같은 최신 소프트웨어 기술 확보에 집중해 새로운 라이프스타일을 창조하고 고객의 삶을 개선하는 데 주력하고 있다"고 강조했습니다.

https://www.samsungdeveloper.com/

 

 

 

 

구글 딥마인드: 강화학습 알고리즘을 활용하여 자율적인 학습 능력을 가진 에이전트 AI를 개발하였으며, 이를 통해 복잡한 문제 해결 능력을 입증하였습니다.

 

Google DeepMind 공식 웹사이트: DeepMind

딥마인드의 주요 연구, 프로젝트, 성공 사례를 확인할 수 있는 공식 웹사이트입니다.

구글 AI 연구 페이지: Google AI

구글 딥마인드가 포함된 구글 AI 연구팀의 다양한 프로젝트와 발표 자료를 확인할 수 있습니다.

딥마인드의 AlphaGo 프로젝트: AlphaGo

https://deepmind.google/

 

Google DeepMind

Artificial intelligence could be one of humanity’s most useful inventions. We research and build safe artificial intelligence systems. We're committed to solving intelligence, to advance science...

deepmind.google

 

 

 

테슬라: 실시간 데이터 수집과 분석을 통해 자율주행 AI를 지속적으로 개선하였으며, 하드웨어와 소프트웨어의 통합을 통해 높은 수준의 자율주행 기능을 구현하였습니다.

이러한 사례들은 멀티모달 AI와 에이전트 AI가 다양한 산업에서 혁신을 이끌고 있으며, 각 기업의 전략과 기술적 접근이 성공의 열쇠임을 보여줍니다.

AI 및 로봇 공학 | Tesla 대한민국

https://www.tesla.com/ko_kr/AI

 

AI & Robotics | Tesla South Korea

지금 지원하여 Tesla 인공지능 및 오토파일럿 개발에 참여하고 지속 가능한 에너지로의 세계적 전환을 가속화하는 Tesla의 미션에 동참하세요.


www.tesla.com

 

 

테슬라의 자율주행 AI 기술에 대한 자세한 정보는 테슬라 공식 웹사이트의 'AI 및 로봇 공학' 페이지에서 확인하실 수 있습니다. 이 페이지에서는 테슬라의 자율주행 기술, AI 접근 방식, 로봇 공학에 대한 최신 정보를 제공합니다.

또한, 테슬라는 매년 'AI 데이'를 개최하여 자사의 AI 기술과 자율주행 시스템에 대한 심도 있는 발표를 진행합니다. 이러한 행사의 발표 자료와 영상을 통해 테슬라의 최신 기술 동향을 파악하실 수 있습니다.

 

테슬라의 자율주행 AI는 차량에 탑재된 8개의 카메라를 활용하여 주변 환경을 인식하고, 딥러닝 기반의 신경망을 통해 주행 경로를 계획합니다. 이를 통해 테슬라는 라이다(LiDAR)와 같은 추가 센서 없이도 자율주행을 구현하고자 합니다.

테슬라의 자율주행 AI 기술에 대한 최신 소식과 심층 분석을 원하신다면, 위의 공식 웹사이트와 AI 데이 발표 자료를 참고하시기 바랍니다.

 

 

 

반응형

댓글