OpenAI의 새로운 음성 모델 세트는 기업이 실시간으로 다국어를 듣고, 번역하고, 응답할 수 있는 AI 애플리케이션을 구축하는 데 도움이 됩니다. 그래픽: 깟띠엔

OpenAI, 기업을 위한 다국어 음성 AI 세트 소개

CÁT TIÊN (báo lao động) 08/05/2026 16:36 (GMT+7)

OpenAI는 전 세계 기업 및 사용자를 위한 실시간 번역, 음역 및 채팅을 지원하는 새로운 다국어 음성 AI 세트를 소개합니다.

현지 시간 5월 7일 발표에 따르면 OpenAI의 API(앱 프로그래밍 인터페이스)에 통합된 새로운 모델을 통해 앱 개발자는 사용자가 말하는 동안에도 직접 채팅, 번역 및 대화 기록을 할 수 있습니다. 이는 실시간 음성 AI 개발 경쟁에서 중요한 진전으로 간주됩니다.

새로운 모델 세트에는 GPT-Realtime-2, GPT-Realtime-Translate 및 GPT-Realtime-Whisper의 세 가지 주요 제품이 포함됩니다.

그중 GPT-Realtime-2는 GPT-5 수준의 추론 기능을 통합하여 AI가 더 복잡한 요구 사항을 처리하고 사용자와 더 자연스러운 대화를 유지하는 데 도움이 됩니다.

OpenAI는 이 모델이 대화의 맥락을 이해하고, 변경 요청에 적응하며, 각 상황에 따라 적절한 피드백을 제공할 수 있다고 밝혔습니다.

두 번째 모델은 실시간 음성 번역에 중점을 둔 GPT-Realtime-Translate입니다. 이 기술은 70개 이상의 입력 언어와 약 13개의 출력 언어를 지원합니다.

주목할 만한 점은 시스템이 원래 말과 거의 동시에 번역할 수 있으며, 동시에 말하는 사람의 자연스러운 속도와 리듬을 유지할 수 있다는 것입니다.

한편, GPT-Realtime-Whisper는 대화 중에 직접 음성을 녹음할 수 있는 새로운 온라인 텍스트 음성 변환 모델입니다.

OpenAI는 음성 AI가 현재 인간과 소프트웨어 간의 가장 일반적인 상호 작용 방법 중 하나라고 주장합니다.

그러나 실제 음성 제품을 구축하는 것은 여전히 매우 복잡합니다. 왜냐하면 AI는 듣는 것과 이해하는 것뿐만 아니라 상황을 추적하고, 적절한 도구를 사용하고, 적절한 시기에 응답해야 하기 때문입니다.

OpenAI는 공식 블로그에서 "새로운 모델은 실시간 사운드를 간단한 질의응답 형식에서 벗어나 대화 중에 듣고, 추론하고, 번역하고, 기록하고, 행동할 수 있는 음성 인터페이스로 만들 것입니다."라고 밝혔습니다.

회사는 새로운 기술이 자동 고객 관리 서비스를 확장하려는 기업을 강력하게 지원할 것으로 기대합니다.

또한 실시간 음성 AI는 교육, 미디어, 이벤트 기획 및 콘텐츠 제작 플랫폼과 같은 많은 분야에 적용될 수 있습니다.

인도와 같은 다국어 국가에서는 직접 번역 기술이 특히 유용한 것으로 간주됩니다. 새로운 모델을 통해 여러 사람이 동일한 대화에서 다른 언어를 사용하고 실시간으로 번역을 듣고 직접 텍스트 기록을 추적할 수 있습니다.

인도 기업용 음성 AI 플랫폼 개발 전문 기술 회사인 BolnaAI의 공동 창립자 겸 최고 기술 책임자인 Prateek Sachan은 GPT-Realtime-Translate가 회사가 힌디어, 타밀어, 텔루구어와 같은 언어에서 테스트한 다른 많은 모델보다 12.5% 낮은 오류율을 달성했다고 말했습니다.

사찬 씨에 따르면 OpenAI의 새로운 기술은 특히 복잡한 음성 및 지역 음성 시스템을 가진 시장에서 다국어 음성 AI에 대한 새로운 기준을 설정하고 있습니다.

원본은 여기에서 읽어보세요