벤치마크

벤치마크 방법론

CONTEXA가 검증 가능한 벤치마크 리포트를 게시하는 방법

벤치마크 방법론은 비공개 엔터프라이즈 증거를 노출하지 않으면서 반증 가능하고, 검토 가능하며, 미래 표준과 호환되도록 설계되었습니다.

안전 게이트 우선

CONTEXA 벤치마크는 permit, lineage, replay, 증거 무결성을 종합 점수 전에 필수 게이트로 취급합니다.

안전하지 않은 액션, 끊어진 lineage, 검증 불가능한 replay는 평균 점수와 관계없이 벤치마크에서 실패합니다.
공개 리포트는 종합 점수와 게이트 실패를 모두 공개합니다.
벤치마크는 고립된 모델 출력이 아닌 제어 가능한 action-plane 품질을 측정합니다.

사람과 에이전트 통합 시맨틱스

사람의 요청과 위임된 에이전트 실행은 동일한 표준 보안 시맨틱스로 평가됩니다.

사람, 서비스 클라이언트, 위임된 에이전트 실행은 하나의 요청 시점 제어 플레인에서 평가됩니다.
목표, 범위, 도구 체인, permit, 승인, 프로토콜 경계는 공통 평가 축으로 유지됩니다.
공개 리포트는 비공개 증거를 노출하지 않고 시나리오 패밀리와 스코어카드를 공개합니다.

공개 안전 리포팅

공개 벤치마크 아티팩트는 내부 원시 증거 대신 정제된 공개 번들에서 생성됩니다.

비공개 증거는 운영자 검토를 위해 contexa-iam-enterprise 내부에 남습니다.
contexa-site는 공개 승인된 아티팩트만 읽습니다.
HTML과 PDF 리포트는 동일한 공개 요약 및 차트 데이터셋에서 생성됩니다.

벤치마크 패밀리와 공개 경계

공개 사이트는 원시 비공개 증거를 읽지 않습니다. 내부 승인된 공개 안전 아티팩트만 읽습니다.

Human Zero Trust사람의 요청 시점 결정 품질과 재현. Agent Zero Trust위임된 실행, 범위, 목표, 계보 제어. Protocol BoundaryMCP, A2A, 내부 런타임 충실도. Verification증거 완전성과 제출 준비 상태. SOAR승인, 허가, 도구 실행, 인시던트 계보. Java Production FitJava와 Spring 프로덕션 배포 준비도.