“빅테크들, AI 학습 데이터 마구잡이 수집”

2024-04-08 (월) 12:00:00

크게 작게

▶ 유튜브 영상 녹취 무단사용

▶ 경쟁과열, 규정·저작권 무시

챗GPT와 같은 생성형 인공지능(AI) 개발 경쟁에 불이 붙으면서 빅테크(거대 정보기술기업)들이 저작권 규정도 무시한 채 AI 학습용 데이터 확보에 사활을 걸고 있다고 뉴욕타임스(NYT)가 6일 보도했다.

보도에 따르면 챗GPT 개발사 오픈AI는 GPT-4 모델을 개발 중이던 2021년 기존에 수집한 AI 학습용 데이터가 고갈될 위기에 처하자 유튜브 영상과 팟캐스트 등의 콘텐츠를 무단으로 사용했다고 내부 사정을 잘 아는 소식통들이 전했다.

오픈AI는 유튜브 영상과 팟캐스트 콘텐츠도 활용하기로 했고, 이를 위해 영상 속 말소리를 받아적는 자체 프로그램인 ‘위스퍼’(Whisper)까지 개발했다.

문제는 유튜브는 규정을 통해 플랫폼에 올라온 영상을 다른 독립된 기능을 위해 사용하는 것을 금지하고 있다는 것이다. 또 ‘위스퍼’와 같은 자동화 수단을 이용해 유튜브 영상을 후처리하는 것도 금지되어 있다.

유튜브 영상을 AI 학습에 활용한 것은 오픈AI만이 아니었다고 NYT는 짚었다.

유튜브를 운영하는 구글 내부 사정을 잘 아는 소식통들은 당시 구글 일부 직원들은 오픈AI가 유튜브 영상을 무단으로 사용했다는 사실을 인지했음에도 이를 막지 않았다고 주장했다.

챗GPT 열풍을 잇기 위해 AI 개발 경쟁에 뛰어든 메타 역시 페이스북·인스타그램 게시물뿐 아니라 소설, 에세이와 같은 저작물까지도 무단으로 손을 댔다고 NYT는 전했다.