프로젝트
공통
상세 설명
배경
- 토큰 초과는 호출 후에야 알 수 있어 비용·지연을 야기.
- 호출 전 추정 토큰 수로 선제 차단(빠른 실패) 필요.
요구사항
- 모델이 계속 바뀔 수 있어 동일 토크나이저 대신 임의의 토크나이저로 chat template를 적용한 사전 토큰 카운트 수행.
- max_context - completion_reserved_tokens를 초과할 것으로 추정되면 호출하지 않고 로컬에서 에러 생성·반환.
- 에러 포맷은 GenosException 형태로 구성하여 DB 상태란에 적재
{
"object": "error",
"message": "프롬프트 입력 토큰 (N) 초과 하였습니다. (16384 - reserved M).",
"type": "BadRequestError",
"param": "prompt",
"code": 400
}
동시에 해당 에러 메세지를 적재 상태 에러메세지 필드에 저장.
테스트 시나리오
- 추정 측정 169,000 tokens, limit 128,000 → 사전 차단(400) 발생.
프로젝트
공통
상세 설명
배경
요구사항
{ "object": "error", "message": "프롬프트 입력 토큰 (N) 초과 하였습니다. (16384 - reserved M).", "type": "BadRequestError", "param": "prompt", "code": 400 }동시에 해당 에러 메세지를 적재 상태 에러메세지 필드에 저장.
테스트 시나리오