AI 모델 44개 직업에서 인간 전문가와 경쟁, 오픈AI 신규 업무 벤치마크 공개

AI 모델 44개 직업에서 인간 전문가와 경쟁, 오픈AI 신규 업무 벤치마크 공개

오픈AI는 최근 GDPval이라는 새로운 평가 지표를 공개하며, 9개 주요 산업에 걸쳐 44개의 지식기반 직업에서 AI 모델이 인간 전문가와 대등하거나 이를 능가하는 성과를 낼 수 있다고 밝혔습니다. 이 평가는 1,320개 이상의 실제 업무 과제에 AI를 투입해 테스트했으며, 법률 서류 작성, 공학 설계, 간호 계획 등 다양한 문서 기반 산출물을 AI가 전통적 방식 대비 훨씬 빠르고 저렴하게 생성하는 능력을 보여주고 있습니다오픈AI의 GDPval에서는 평균 14년 이상의 업계 경험을 가진 전문가들이 직접 과제를 설계하고 평가에 참여해, AI 산출물을 실무 기준으로 깐깐하게 검증했습니다.

가장 높은 성과를 낸 모델은 Anthropic의 Claude Opus 4.1이며, 오픈AI의 최신 GPT-5 모델도 크게 향상된 점수를 나타냈습니다. 다만 오픈AI 측은 실제 업무 환경에서는 문서화된 과제 이상의 복합적인 작업과 상황 대응 능력이 요구되어, 이번 평가는 업무의 일부분만 반영하는 한계가 있다고 주지했습니다.

AI가 높은 평가를 받은 44개 직업 리스트는 다음과 같습니다:

  • 컨시어지
  • 부동산, 시설관리자
  • 부동산 중개인
  • 부동산 중개업자
  • 카운터 및 렌탈 직원
  • 레크리에이션 지도자
  • 컴플라이언스 담당자
  • 경찰 및 탐정 감독관
  • 행정 서비스 관리자
  • 아동, 가족, 학교 사회복지사
  • 기계공학자
  • 산업공학자
  • 구매 담당자
  • 출납 및 재고 담당자
  • 생산 및 운영 감독자
  • 소프트웨어 개발자
  • 변호사
  • 회계사 및 감사인
  • 컴퓨터 및 정보시스템 관리자
  • 프로젝트 관리 전문가
  • 등록 간호사
  • 간호사 개업자
  • 의료 및 보건 서비스 관리자
  • 사무 및 행정 지원 감독자
  • 의료 비서 및 행정 보조원
  • 고객 서비스 담당자
  • 금융 및 투자 분석가
  • 금융 관리자
  • 개인 재무 상담사
  • 증권 및 금융 서비스 영업사원
  • 약사
  • 소매 판매 감독자
  • 일반 및 운영 관리자
  • 사설 탐정 및 조사관
  • 영업 관리자
  • 주문 출납 직원
  • 비소매 영업 감독자
  • 도매 및 제조업 영업 사원 (비기술 및 비과학 제품)
  • 도매 및 제조업 영업 사원 (기술 및 과학 제품)
  • 오디오 및 비디오 기술자
  • 프로듀서 및 감독
  • 뉴스 분석가, 기자
  • 영화 및 비디오 편집자
  • 편집자

이번 GDPval 공개는 AI 개발사 간 첨단 모델의 업무 적용 경쟁이 치열해지고 있음을 보여주며, AI를 통한 업무 효율성 극대화와 비용 절감 기대 속에서 실제 비즈니스 적용과 투자 수익 논쟁도 이어지고 있음을 시사합니다.

참조: https://openai.com/index/gdpval/

Share:

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다