Skip to main content

프롬프트해커 대니의 최신 소식 구독하기!

제미나이 (Gemeni) API 멀티모달 AI 모델 사용법 - 비디오 텍스트 변환

구글에서 출시한 제미나이(Gemini)는 텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 이해하고 분석할 수 있는 멀티모달 AI 모델입니다. 특히 비디오 데이터에서 영상과 오디오 정보를 동시에 분석하여 자연어로 설명하는 기능이 돋보입니다.

제미나이 API를 활용하면 비디오 콘텐츠를 텍스트로 자동 요약하고 검색 가능하게 만들 수 있어 다양한 활용 가능성이 열립니다. 이 글에서는 제미나이 API로 비디오를 분석하여 텍스트 설명을 생성하는 방법을 파이썬 예제 코드와 함께 자세히 살펴보겠습니다.

제미나이 API 준비하기

1. Google Cloud 프로젝트 설정

  1. Google Cloud Console에서 새 프로젝트를 생성합니다.
  2. 생성한 프로젝트를 선택한 뒤 프로젝트 ID를 확인합니다.

2. Vertex AI API 활성화

  1. Vertex AI API를 방문하여 프로젝트에 대해 API를 활성화합니다.
  2. Cloud Shell 또는 터미널에서 gcloud auth application-default login 명령어로 인증 정보를 설정합니다.

3. 파이썬 환경 설정

  1. Vertex AI SDK를 설치합니다.
pip install vertexai
  1. 필요한 라이브러리들을 임포트합니다.
import vertexai
from vertexai.generative_models import GenerativeModel, Part

비디오 분석 예제 코드

제미나이로 비디오 분석하기

다음은 제미나이 API를 사용해 비디오 파일의 영상과 오디오를 분석하여 텍스트 요약을 생성하는 파이썬 예제 코드입니다.

import vertexai
from vertexai.generative_models import GenerativeModel, Part

# 프로젝트 ID 설정
project_id = "your-project-id"

vertexai.init(project=project_id, location="us-central1")

model = GenerativeModel(model_name="gemini-1.5-flash-001")

# 비디오 파일 URI
video_uri = "gs://cloud-samples-data/generative-ai/video/pixel8.mp4"

prompt = """Provide a description of the video. The description should also contain anything important which people say in the video."""

response = model.generate_content(
[
Part.from_uri(video_uri, mime_type="video/mp4"),
prompt,
]
)

print(response.text)

위 코드는 다음과 같은 과정으로 동작합니다:

  1. Vertex AI 프로젝트 ID와 지역을 설정합니다.
  2. gemini-1.5-flash-001 모델을 로드합니다.
  3. 분석할 비디오 파일의 Cloud Storage URI와 프롬프트를 설정합니다.
  4. GenerativeModel.generate_content() 메서드에 비디오 파일과 프롬프트를 전달하여 API 요청을 보냅니다.
  5. 응답으로 받은 비디오 설명 텍스트를 출력합니다.

실행 결과 제미나이 API는 입력받은 비디오에 대한 설명 텍스트를 출력할 것입니다. 영상 속 장면들과 함께 오디오에서 중요한 내용이 있다면 그 내용도 요약하여 설명해줍니다.

활용 시나리오

제미나이 API로 비디오를 분석해 텍스트로 변환하는 기술은 다양한 분야에서 활용될 수 있습니다.

  • 방대한 양의 비디오 콘텐츠를 자동으로 요약하고 검색 가능하도록 텍스트로 변환
  • 영상 강의, 회의록 등을 자동 요약하여 효율적인 학습과 회의 내용 공유
  • 기사나 블로그에 들어가는 영상을 분석해 자동으로 설명 텍스트 생성
  • 전사가 필요한 대화형 콘텐츠의 자막 생성
  • 비디오 기반 질의응답 시스템 구축

결론

제미나이 API를 활용하면 비디오에 담긴 다양한 정보들을 텍스트로 추출할 수 있습니다. 영상과 음성을 동시에 이해하는 멀티모달 AI 기술로 비디오 데이터를 보다 효과적으로 분석하고 활용할 수 있게 됩니다.

비디오를 텍스트로 변환하는 기술은 점점 더 정교해지고 있습니다. 앞으로 제미나이 API가 더욱 발전하여 비디오 분석과 요약 기능이 고도화된다면 더욱 다양한 분야에서 활용되며 우리 삶을 풍요롭게 만들어 줄 것으로 기대됩니다.

더 자세한 내용은 구글 클라우드 공식 제미나이 예시 문서 를 통해 확인할 수 있습니다.