인더뉴스 권용희 기자ㅣLG AI연구원은 캐나다 벤쿠버에서 열린 '컴퓨터 비전 학회(CVPR) 2023'서 '캡셔닝 AI'를 처음 공개했다고 19일 밝혔습니다.
캡셔닝 AI는 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터를 생성하는 생성형 AI 상용화 서비스입니다. 처음 보는 이미지까지 자연어로 설명할 수 있다는 특징을 갖고 있습니다.
LG AI연구원은 기존 학습 이미지와 텍스트 데이터를 기반으로 배경, 인물, 행동 등 이미지 상의 다양한 요소와 특징을 인식하고 그 관계를 이해하고 설명하는 '제로샷 이미지 캡셔닝' 기술을 활용했습니다.
'캡셔닝 AI'는 평균적으로 5개 문장과 10개의 키워드를 10초내에 생성할 수 있다는 특징을 갖고 있습니다. LG AI연구원은 이미지, 영상 등 시각 콘텐츠 플랫폼 기업 '셔터스톡'과의 협력을 진행한 것으로 나타났습니다.
LG AI연구원은 셔터스톡과 함께 학습 데이터의 편향성·선정성 등 AI 윤리 검증을 진행하고, 저작권 투명성도 확보했다고 밝혔습니다.
세잘 아민 셔터스톡 CTO는 "현재 글로벌 고객사 10곳을 대상으로 '얼리 액세스 프로그램'을 진행하며 캡셔닝 AI 기술을 발전시켜 나가고 있다"면서 "캡셔닝 AI는 고객들이 반복적인 작업보다 좀 더 본질적이고 창의적인 일에 집중할 수 있도록 돕는 AI가 될 것"이라고 강조했습니다.
김승환 LG AI연구원 비전랩장은 "이미지 캡셔닝 분야의 글로벌 연구 리더십을 확보하기 위해 다양한 파트너들과 유기적인 협력체계를 구축해 새로운 평가 지표 개발과 신기술 연구를 계속 추진할 계획"이라고 말했습니다.