안전 게이트 우선
CONTEXA 벤치마크는 permit, lineage, replay, 증거 무결성을 종합 점수 전에 필수 게이트로 취급합니다.
- 안전하지 않은 액션, 끊어진 lineage, 검증 불가능한 replay는 평균 점수와 관계없이 벤치마크에서 실패합니다.
- 공개 리포트는 종합 점수와 게이트 실패를 모두 공개합니다.
- 벤치마크는 고립된 모델 출력이 아닌 제어 가능한 action-plane 품질을 측정합니다.
벤치마크 방법론
벤치마크 방법론은 비공개 엔터프라이즈 증거를 노출하지 않으면서 반증 가능하고, 검토 가능하며, 미래 표준과 호환되도록 설계되었습니다.
CONTEXA 벤치마크는 permit, lineage, replay, 증거 무결성을 종합 점수 전에 필수 게이트로 취급합니다.
사람의 요청과 위임된 에이전트 실행은 동일한 표준 보안 시맨틱스로 평가됩니다.
공개 벤치마크 아티팩트는 내부 원시 증거 대신 정제된 공개 번들에서 생성됩니다.
공개 사이트는 원시 비공개 증거를 읽지 않습니다. 내부 승인된 공개 안전 아티팩트만 읽습니다.