제미나이 (Gemeni) API 멀티모달 AI 모델 사용법 - 비디오 텍스트 변환

구글에서 출시한 제미나이(Gemini)는 텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 이해하고 분석할 수 있는 멀티모달 AI 모델입니다. 특히 비디오 데이터에서 영상과 오디오 정보를 동시에 분석하여 자연어로 설명하는 기능이 돋보입니다.

제미나이 API를 활용하면 비디오 콘텐츠를 텍스트로 자동 요약하고 검색 가능하게 만들 수 있어 다양한 활용 가능성이 열립니다. 이 글에서는 제미나이 API로 비디오를 분석하여 텍스트 설명을 생성하는 방법을 파이썬 예제 코드와 함께 자세히 살펴보겠습니다.

제미나이 API 준비하기

1. Google Cloud 프로젝트 설정

Google Cloud Console에서 새 프로젝트를 생성합니다.
생성한 프로젝트를 선택한 뒤 프로젝트 ID를 확인합니다.

2. Vertex AI API 활성화

Vertex AI API를 방문하여 프로젝트에 대해 API를 활성화합니다.
Cloud Shell 또는 터미널에서 gcloud auth application-default login 명령어로 인증 정보를 설정합니다.

3. 파이썬 환경 설정

Vertex AI SDK를 설치합니다.

pip install vertexai

필요한 라이브러리들을 임포트합니다.

import vertexai
from vertexai.generative_models import GenerativeModel, Part

비디오 분석 예제 코드

제미나이로 비디오 분석하기

다음은 제미나이 API를 사용해 비디오 파일의 영상과 오디오를 분석하여 텍스트 요약을 생성하는 파이썬 예제 코드입니다.

import vertexai
from vertexai.generative_models import GenerativeModel, Part

# 프로젝트 ID 설정 
project_id = "your-project-id"

vertexai.init(project=project_id, location="us-central1")

model = GenerativeModel(model_name="gemini-1.5-flash-001")

# 비디오 파일 URI
video_uri = "gs://cloud-samples-data/generative-ai/video/pixel8.mp4"

prompt = """Provide a description of the video. The description should also contain anything important which people say in the video."""

response = model.generate_content(
    [
        Part.from_uri(video_uri, mime_type="video/mp4"),
        prompt,
    ]
)

print(response.text)

위 코드는 다음과 같은 과정으로 동작합니다:

Vertex AI 프로젝트 ID와 지역을 설정합니다.
gemini-1.5-flash-001 모델을 로드합니다.
분석할 비디오 파일의 Cloud Storage URI와 프롬프트를 설정합니다.
GenerativeModel.generate_content() 메서드에 비디오 파일과 프롬프트를 전달하여 API 요청을 보냅니다.
응답으로 받은 비디오 설명 텍스트를 출력합니다.

실행 결과 제미나이 API는 입력받은 비디오에 대한 설명 텍스트를 출력할 것입니다. 영상 속 장면들과 함께 오디오에서 중요한 내용이 있다면 그 내용도 요약하여 설명해줍니다.

활용 시나리오

제미나이 API로 비디오를 분석해 텍스트로 변환하는 기술은 다양한 분야에서 활용될 수 있습니다.

방대한 양의 비디오 콘텐츠를 자동으로 요약하고 검색 가능하도록 텍스트로 변환
영상 강의, 회의록 등을 자동 요약하여 효율적인 학습과 회의 내용 공유
기사나 블로그에 들어가는 영상을 분석해 자동으로 설명 텍스트 생성
전사가 필요한 대화형 콘텐츠의 자막 생성
비디오 기반 질의응답 시스템 구축

결론

제미나이 API를 활용하면 비디오에 담긴 다양한 정보들을 텍스트로 추출할 수 있습니다. 영상과 음성을 동시에 이해하는 멀티모달 AI 기술로 비디오 데이터를 보다 효과적으로 분석하고 활용할 수 있게 됩니다.

비디오를 텍스트로 변환하는 기술은 점점 더 정교해지고 있습니다. 앞으로 제미나이 API가 더욱 발전하여 비디오 분석과 요약 기능이 고도화된다면 더욱 다양한 분야에서 활용되며 우리 삶을 풍요롭게 만들어 줄 것으로 기대됩니다.

더 자세한 내용은 구글 클라우드 공식 제미나이 예시 문서 를 통해 확인할 수 있습니다.

제미나이 API 준비하기​

1. Google Cloud 프로젝트 설정​

2. Vertex AI API 활성화​

3. 파이썬 환경 설정​

비디오 분석 예제 코드​

제미나이로 비디오 분석하기​

활용 시나리오​

결론​