내용으로 건너뛰기

대규모 데이터를 처리하고 검색할 때 Amazon Bedrock 성능과 응답 시간을 개선하려면 어떻게 해야 합니까?

2분 분량
0

대규모 데이터를 처리하고 검색할 때 Amazon Bedrock 성능과 응답 시간을 개선하고 싶습니다.

해결 방법

다음 이유 중 하나로 인해 지연 시간 문제가 발생할 수 있습니다.

  • 애플리케이션과 Amazon Bedrock 엔드포인트 간의 거리
  • 일반적으로 처리하는 데 더 많은 시간이 필요한 대규모 모델
  • 프롬프트의 길이 및 복잡성
  • 대량의 동시 API 직접 호출

성능 및 응답 시간을 개선하려면 다음 작업을 수행하십시오.

적합한 모델 선택

특정 요구 사항을 검토한 다음, 속도 및 출력 품질 측면에서 요구 사항에 가장 적합한 모델을 선택하십시오.

입력 및 시스템 프롬프트 개선

입력 프롬프트와 시스템 프롬프트에서 모두 토큰 수를 줄이십시오. 모델에 처리하고 생성할 토큰이 적으면 모델이 더 빠른 응답을 생성합니다.

명확하고 간결한 프롬프트, 구조화된 템플릿, 프롬프트 엔지니어링 기법을 사용하는 것이 가장 좋습니다.

프롬프트 캐싱 사용

프롬프트 캐싱은 Amazon Bedrock에서 응답 및 모델 추론을 줄이는 데 사용할 수 있는 선택적 기능입니다. 모델에서 컨텍스트를 재사용할 수 있도록 대화의 일부를 캐시에 추가하십시오.

추론 파라미터 사용

온도와 같은 모델 고유의 추론 파라미터를 사용하여 응답 생성을 제어하고 조정하십시오. 이러한 파라미터는 출력 길이를 제어하는 데 도움이 됩니다.

지연 시간에 최적화된 추론 사용

Amazon Bedrock의 파운데이션 모델에 대한 지연 시간에 최적화된 추론을 통해 AI 애플리케이션의 응답 시간이 더 빨라지고 응답성이 향상됩니다. 지연 시간 최적화 기능에 액세스하기 위한 추가 설정은 필요하지 않습니다. 지연 시간 파라미터를 최적화됨으로 설정하십시오.

소규모 모델 사용

Anthropic Claude 2와 같은 대규모 모델은 일반적으로 지연 시간이 길지만 품질은 더 좋습니다. 대신 기능은 축소되면서 더 빠른 응답을 제공하는 소규모 모델을 사용할 수 있습니다.

더 가까운 리전 선택

AWS 리전에서 모델을 사용할 수 있는 경우 가장 가까운 Amazon Bedrock의 리전을 선택하십시오.

스트리밍 API 사용

InvokeModelConverse API는 토큰을 다시 보내기 전에 모든 응답 토큰이 생성될 때까지 기다려야 합니다. InvokeModelWithResponseStreamConverseStream API는 모든 토큰이 생성될 때까지 기다리지 않고 스트림으로 응답을 반환하므로 이러한 API를 사용하십시오.

AWS 공식업데이트됨 5달 전