○ 재료과학 모델 훈련용 멀티모달 데이터셋 구축 - 연구내용: 한 명의 재료과학자가 훈련되는 동안 논문, 이미지, 실험 수행과 같은 다양한 경험들로부터 학습하듯 재료과학 에이전트를 효과적으로 훈련하기 위해서는 여러 모달리티에 걸친 데이터가 필요함. 그러나 앞서 언급한 재료과학의 본질적인 문제인 데이터 부족으로 인해 대규모 멀티모달 데이터 구축의 필요성이 제기됨. 재료-인식 멀티모달 모델의 개발을 위해 CIF (Crystallographic Information File) 파일, 미세구조 이미지, 장치 소자 도안, 합성법 텍스트 등 여러 모달리티의 데이터를 수집하고 관련 내용을 매칭하여 구축. - 평가 착안점: 데이터셋 구축 및 공개 여부, 100만개 이상의 합성 및 자연 데이터 확보.○ 통합 재료 표현 인코더 개발 - 연구내용: 그래프신경망 기반 재료특성 예측을 위한 CGCNN[12]의 기념비적 연구 이후 재료를 표현하기 위해 그래프 구조가 사실상 표준이 되었음. 그러나 그래프신경망의 적용은 지나치게 많은 중복된 계산을 수행해야 하므로 효율적인 계산이 어려워 결함을 포함하는 대규모 셀로의 확장이 어려우며, 그래프신경망 표현을 상응하는 실제 물질 구조로 디코딩하는 것은 매우 도전적인 과제임. 따라서 본 과제에서는 invertible, invariant한 제약조건을 만족하는 인코더 구조를 개발하는 것을 목표로 함. - 평가 착안점: 개발된 인코더의 다양한 재료 표현 통합 인코딩 가능 여부, Materials Project 물성예측을 위한 downstream task에서 기존 방법론과 유사수준 mean absolute error 달성.○ 멀티모달 다방향 생성모델 개발 - 연구내용: 재료, 이미지 및 텍스트의 다방향 생성이 가능한 모델은 joint representation space의 통합된 이해를 바탕으로 원하는 물성을 달성하기 위한 소재 및 미세구조를 예측하고 합성법을 제안할 수 있는 능력이 있다고 본 연구자는 가정하였음. 이를 위해서는 위 항목에서 개발한 통합 재료 표현 인코더와 함께 이미지, 텍스트를 입력으로 받을 수 있는 기존 사전훈련된 인코더를 사용하여 여러 모달리티 입력을 통일된 semantic token space에 매핑하고, 각 모달리티에 따라 추론할 수 있는 생성 모델이 필요함 (그림 3). - 평가 착안점: 소재, 미세구조 이미지 및 합성법의 다방향 생성모델 개발 여부. Frechet Inception Distance, perplexity 등 각 모달리티별로 기존 unimodal 생성 모델의 평가 metric 유사수준 달성.○ 재료과학 연구자 보조 로봇 에이전트 개발 - 연구내용: 인간 재료과학자를 보조하기 위해 상기 항목에서 개발한 생성 모델을 도구로 사용하는 계층적 언어모델 에이전트 시스템을 개발할 예정임 (그림 2). 에이전트가 제안한 소재가 원하는 물성을 가지는지 확인할 시뮬레이션 도구와 제안된 실제 실험을 수행하기 위한 로봇 제어 시스템과 같은 보조 도구를 장착하여 다목적 시나리오에 대응 가능하도록 개발하는 것이 목표임. 온라인 재료 데이터베이스 등 보다 다양한 도구를 추가할 수 있지만, 본 과제에서는 상기 3가지 시스템만 우선적으로 고려함. - 평가 착안점: 전 세계 연구자들을 대상으로 로봇 에이전트 공개 서비스 오픈 여부 및 30-day user retention 5% 달성.