실시간 전세계에서 몰리는 경기 순위
순위 오즈
1 네덜란드 1.25
2 이집트 1.44
3 웨일즈 1.02
4 세네갈 1.40
5 알제리 1.50
종목별 팀순위
1 첼씨 8 6 1 1 19
1 첼씨 8 6 1 1 19
1 첼씨 8 6 1 1 19
1 첼씨 8 6 1 1 19

라이브 비디오를 실시간 스타일 변환하는 'Live2Diff' 등장

작성자 정보

  • 커뮤맨 작성
  • 작성일

컨텐츠 정보

본문

https://www.aitimes.com/news/articleView.html?idxno=161703

 

라이브 비디오를 실시간 스타일 변환하는 AI 도구 등장

라이브 비디오 스트림을 즉시 애니메이션으로 변환하는 인공지능(AI) 도구가 나왔다. 기존과는 다른 '단방향 어텐션 모델링(uni-directional attention modeling)' 방식으로 성능을 높였다는 설명이다. 벤처비트는 17일(현지시간) 상하이 AI연구실과 막스 플랑크 정보학연구소, 난양이공대학교 연구진이 라이브 비디오 스트림을 실시간으로 스타일 변환하는 AI 도구 ‘라이브2디프(Live2Diff)’ 논문을 아카이브에 게재했다고 전했다.라이브2디프는 라이브 비디오 스트림 처리를 위한 비디오 확산(diffusion) 모

www.aitimes.com





라이브 비디오 스트림을 즉시 애니메이션으로 변환하는 인공지능(AI) 도구가 나왔다. 기존과는 다른 '단방향 어텐션 모델링(uni-directional attention modeling)' 방식으로 성능을 높였다는 설명이다.


벤처비트는 17일(현지시간) 상하이 AI연구실과 막스 플랑크 정보학연구소, 난양이공대학교 연구진이 라이브 비디오 스트림을 실시간으로 스타일 변환하는 AI 도구 ‘라이브2디프(Live2Diff)’ 논문을 아카이브에 게재했다고 전했다.


라이브2디프는 라이브 비디오 스트림 처리를 위한 비디오 확산(diffusion) 모델에 단방향 어텐션 모델링을 구현한 첫번째 사례로 소개됐다.


일반적으로 비디오 확산 모델은 기반이 되는 트랜스포머 아키텍처의 기본 구성 요소인 어텐션 메카니즘의 양방향 특성 때문에 라이브 비디오 스트림에 대한 실시간 처리가 불가능하다.





일반적으로 문장 속 단어와 같은 순차 데이터를 학습해 맥락과 의미를 추적하는 트랜스포머 모델은 서로 떨어져 있는 데이터 요소들의 관계를 이해하는 데 어텐션 메커니즘을 사용한다.


이런 트랜스포머의 어텐션 메커니즘을 라이브 비디오에 적용할 경우, 비디오 프레임 간의 관계를 이해하기 위해 과거 프레임과 미래 프레임 모두에 대해 시간적으로 양방향 처리가 필요하다. 특히 미래 프레임을 처리를 위해서는 지연이 불가피하다.


이 문제를 해결하기 위해 라이브2디프는 각 프레임에 대해 미래 프레임 없이 과거 프레임과 몇 개의 초기 워밍업 프레임만 연관시켜 시간이 흘러도 일관성을 유지하는 단방향 어텐션 모델링을 도입했다.


연구진은 "우리의 접근 방식은 미래 프레임 없이도 시간적 일관성과 자연스러움을 보장한다”라며 “이는 실시간 비디오 번역 및 처리를 위한 새로운 가능성을 열어준다"라고 설명했다.


특히 이 기술은 엔비디아 '4090 GPU'와 같은 일반 소비자 하드웨어에서 초당 16프레임의 속도로 비디오를 실시간 온디바이스 처리하도록 최적화됐다.





연구진은 실시간 웹캠 입력을 사용해 얼굴을 애니메이션 스타일 캐릭터로 변환하는 라이브2디프의 능력을 시연했다. 광범위한 실험 결과, 라이브2디프가 시간적 일관성과 자연스러움에서 기존 방법을 능가한다는 것을 양적 측정 및 사용자 연구에서 확인했다고 전했다.





라이브2디프는 엔터테인먼트 산업에서 실시간 스트리밍과 가상 이벤트를 재정의할 수 있는 잠재력을 가지고 있다는 평이다.


증강 현실(AR)과 가상 현실(VR) 분야에서 몰입형 경험을 향상할 수 있고, 실시간 스타일 전송을 통해 실시간 비디오 피드에서 현실 세계와 가상 환경 간의 간극을 줄일 수 있다. 또 게임이나 가상 투어, 건축 및 디자인과 같은 전문 분야에서도 응용될 수 있다.


연구진은 라이브2디프의 전체 코드를 곧 오픈 소스로 공개할 계획이다.



https://arxiv.org/html/2407.08701v1

 

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

arxiv.org


관련자료

댓글 0
등록된 댓글이 없습니다.
전체 52,370 / 1877 페이지
번호
제목
이름
    • 1
      다아라
      268,292 P
    • 2
      GodGhs
      213,524 P
    • 3
      돈뱅석
      186,762 P
    • 4
      간쥐떼
      180,600 P
    • 5
      소이
      179,400 P
    • 6
      jordan
      171,000 P
    • 7
      사탕
      169,400 P
    • 8
      Kaeee
      169,050 P
    • 9
      jym0405
      146,387 P
    • 10
      김춘배
      144,050 P
    • 1
      이재림
      LV. 44
    • 2
      GodGhs
      LV. 41
    • 3
      돈뱅석
      LV. 41
    • 4
      다아라
      LV. 32
    • 5
      역삼동
      LV. 32
    • 6
      robin
      LV. 32
    • 7
      럭키비키데이
      LV. 32
    • 8
      minmin
      LV. 31
    • 9
      눈보라
      LV. 31
    • 10
      소년소녀백성
      LV. 31
알림 0