Skip to content

[Enrichment] 사전 추정 토큰 수 기반 차단 - 방어코드 추가 #103

@yspaik

Description

@yspaik

프로젝트

공통

상세 설명

배경

  • 토큰 초과는 호출 후에야 알 수 있어 비용·지연을 야기.
  • 호출 전 추정 토큰 수로 선제 차단(빠른 실패) 필요.

요구사항

  • 모델이 계속 바뀔 수 있어 동일 토크나이저 대신 임의의 토크나이저로 chat template를 적용한 사전 토큰 카운트 수행.
  • max_context - completion_reserved_tokens를 초과할 것으로 추정되면 호출하지 않고 로컬에서 에러 생성·반환.
  • 에러 포맷은 GenosException 형태로 구성하여 DB 상태란에 적재
{
  "object": "error",
  "message": "프롬프트 입력 토큰 (N) 초과 하였습니다. (16384 - reserved M).",
  "type": "BadRequestError",
  "param": "prompt",
  "code": 400
}

동시에 해당 에러 메세지를 적재 상태 에러메세지 필드에 저장.

테스트 시나리오

  • 추정 측정 169,000 tokens, limit 128,000 → 사전 차단(400) 발생.

Metadata

Metadata

Labels

No labels
No labels

Type

No fields configured for Task.

Projects

No projects

Relationships

None yet

Development

No branches or pull requests

Issue actions