인더뉴스 권용희 기자ㅣ비투엔은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 '2023년 인공지능(AI) 학습용 데이터 구축사업'에서 컨소시엄의 품질 점검을 완료했다고 25일 밝혔다.
비투엔은 음성인식에 의한 영상 요약 데이터, 만화 웹툰 데이터, 건물 균열 탐지 이미지(고도화) 과제에 대해 피씨엔, 솔트룩스, 팀벨 등 컨소시엄을 이뤄 협업을 진행했다고 설명했다.
회사 측은 인공지능(AI) 학습용 데이터 품질관리 솔루션 'SDQ for AI'를 활용해 AI 학습용 데이터를 수집했다고 밝혔다.
품질을 점검한 인공지능(AI) 학습용 데이터는 총 4종, 66만건으로, 이미지 63만건, 서브 라벨링(초거대AI 말뭉치, 이미지 캡션) 3만건, 음성 3000시간이다. 초거대 AI 생태계 조성을 지원하기 위해 언어모델로 사용할 수 있는 말뭉치 데이터의 품질 검사도 수행했다.
비투엔 박순혁 AIX 그룹장은 "2024년도 초거대AI 확산 생태계 조성사업에서는 참여기업, 용역(품질관리 전담), 제3자 품질검증 용역(검사 건별) 등 다양한 형태로 참여할 예정"이라며 "대규모 말뭉치 데이터의 중복성, 내용 유사성, 유해성 등에 대한 품질 관리를 확대하겠다"고 말했다.