2021년 11월 30일 화요일

AlphaFold2와 GPT-3를 통해 보는 딥러닝의 잠재력

OpenAI1Google Deepmind2는 딥러닝 연구를 선도하는 세계적인 기관들이다. 이 기관들에서는 일반적인 기업에서는 하기 어려운 막대한 컴퓨팅을 이용한 딥러닝 기술들도 연구하고 있으며, 이러한 기술들은 압도적인 성능을 통해 딥러닝의 미래를 엿볼 수 있게 해준다. 그 중에서도 최근에 가장 강력한 임팩트를 주었던 AlphaFold 2, GPT-3를 함께 살펴 본다.

AlphaFold 2

AlphaFold23는 구글 Deepmind에서 개발한 단백질 구조 예측 모델이다. 2년마다 열리는 CASP(단백질 구조 예측 대회)에서 2018년에 AlphaFold가 압도적인 1등을 기록하며 주목 받았다. 그림 1은 대회마다 1등 팀들이 보여준 모델의 성능(사전에 실험을 통해 밝힌 것과 얼마나 일치하는지 점수)이다. 2020년에는 AlphaFold2를 통해 매우 높은 GDT를 달성하였으며, 이는 상대적으로 다른 알고리즘에 비해 높을 뿐만 아니라 절대적인 점수에 있어서도 매우 유의미한 결과라고 언급되고 있다.

그림 1. AlphaFold2의 성능

단백질은 매우 복잡한 3차원 형태이며, 이 형태는 고유의 기능과 작동 방식을 결정한다. 발견한 단백질 종류에 비해 정확하게 그 구조를 파악한 단백질은 매우 극소수에 불과하며, 단백질 구조들을 파악하는 것은 생물학을 이해하는 데에 핵심이 된다. 일반적으로 단백질 접힘을 엑스선 결정학 등을 통해 실험적으로 알아내기 위해서는 몇 달에서 몇 년의 시간이 필요하며 억 단위의 비용이 든다.

그림 2. 단백질 접힘 구조 예측 예시

이와 같이 복잡한 단백질 구조를 학습하기 위해 AlphaFold2는 단백질 구조를 spatial graph로 취급하며, 이를 예측하고 해석할 수 있도록 attention 기반의 뉴럴넷 구조를 선택했다.(attention을 사용하면 뉴럴넷에서 두 벡터 사이의 관계를 추정해 볼 수 있다) 또한, 예측된 graph를 얼마나 신뢰할 수 있는지도 함께 예측한다. 모델의 학습을 위해 17만 개의 단백질 구조와 구조가 알려지지 않은 더 많은 단백질의 시퀀스들을 학습 데이터로 사용했으며, 16개의 TPUv3s(GPU 100~200개 수준)로 몇 주 동안 학습되었다.

그림 3. AlphaFold 2 모델 구조

AlphaFold 2는 최신 성능 외에도 2년만에 급격하게 발전한 그 속도도 주목 받고 있으며, 앞으로의 발전을 통해 질병 치료신약 개발 등 다양한 문제를 풀 수 있을 것으로 기대된다.

GPT-3

GPT-34(Generative Pre-trained Transformer)는 OpenAI에서 개발한 언어 모델(Language model5)로 GPT의 3번째 버전이다. 딥러닝 기반 언어 모델은 최근에 Transformer67라는 딥러닝 구조를 많이 사용한다. GPT-3는 이 구조를 이용하여 큰 모델을 구성하고, 매우 많은 데이터(위키피디아의 100배 크기)를 사용하여 압도적인 컴퓨팅(V100 GPU 10,000개)을 기반으로 학습한 모델이다. 논문에 따르면 GPT-3로 생성한 가짜 뉴스를 사람에게 진짜인지 식별하게 했을 때 52%(랜덤과 유사한 수준)의 평균 정확도를 보였다. 이는 사람이 구분하지 못할 정도로 실제 뉴스와 유사하게 생성한다는 것을 나타낸다.

또한 GPT-3는 논문을 공개하는 것에 그치지 않고, API를 제공하여 사람들이 실제로 그 성능을 체감할 수 있도록 했으며, 이는 세계적인 주목을 받게 했다. 응용 예시로는 원하는 액션을 텍스트로 입력하면 리눅스 명령어나 코드로 변환하기도 하고, 수식 description을 latex으로 변환해주는 등의 기능을 선보였다. 심지어는 GPT-3 API를 이용하여 텍스트 입력에 따라 새로운 스토리가 전개되는 “AI Dungeon8“이라는 게임도 나왔다.

그림 4. AI Dungeon 플레이

여기에서 더나아가 OpenAI에서는 DALL-E9라는 GPT-3를 이용하여 텍스트로부터 이미지로 합성하도록 학습한 모델을 공개했다. 예를 들어, “아보카도 모양의 의자”를 입력으로 주면 그림 5와 같이 현실에 존재하지 않는 새로운 이미지를 생성해낸다. 텍스트로부터 이미지를 생성해내는 이 어플리케이션은 공식 홈페이지를 보면 그림 5 외에도 매우 다양한 형태(패션, 동물, 간판, 미술품, 일러스트, 음식 등)를 생성하고 있으며 그 이미지 품질도 우수하여 산업에 주게 될 영향을 짐작해보게 한다.

그림 5. DALL-E 예시

이처럼 압도적인 텍스트로부터 학습한 많은 상식을 활용하여 다양한 입출력이 가능한 GPT-3는 API를 사용한 응용 사례들만 보아도 딥러닝을 통한 자연어 연구의 발전이 미래에 얼마나 파괴적인 혁신을 가져올 수 있는 지에 대해 보여주고 있다. 단기적으로는 키워드를 이용한 뉴스 생성, 추천 및 검색 시스템에서 feature 활용, 중장기적으로는 게임, 영화 등의 컨텐츠 제작에의 도움, 일상 대화가 자연스러운 챗봇 등이 가능할 것으로 보인다. 사실 언어에 대한 이해를 높인 모델이기 때문에 언어를 사용한 응용이라면 폭 넓게 이용될 수 있을 것이며, 특히 Conversational AI에서 음성 인식과 음성 합성 사이에서 자연어 모델이 중심 축이 되기 때문에 음성과 융합된 응용들도 기대할 수 있다.

위에 언급한 모델들은 업계 전문가들(심지어는 저자들도)도 완전하게 분석하거나 이해하지 못한 부분, 논의점 등이 남아있다. 하지만 기존의 알고리즘들에 비해 압도적인 성능을 내고, 기존의 패러다임을 부술 수 있는 강력한 힘을 갖고 있다는 것은 분명하다. 특히 위 모델들은 그 응용 분야가 매우 넓다는 점, 딥러닝은 일단 길을 뚫어 놓고 나면 그 다음 단계로 진입하고 장악하는 속도가 매우 빠르다는 점을 고려하면 혁신적인 미래를 기대하게 한다.

  1. OpenAI
  2. Deepmind
  3. AlphaFold
  4. GPT-3
  5. Language model
  6. Attention Is All You Need
  7. The Illustrated Transformer
  8. AI Dungeon
  9. DALL-E

    Related Posts

    AI가 게임 개발을 도울 수 있을까
    디지털 휴먼과 게임 속 AI의 미래
    ML 모델 도입을 위한 SageMaker의 효율성

    Leave a Reply