목표

이번 주 목표는 하나다.

Tokit의 핵심 흐름이 실제로 한 번 돌아가게 만드는 것.

여기서 말하는 핵심 흐름은 이거다.

  1. 한국어 개발자 입력 받기
  2. 보호 구간 분리
  3. 작업 유형 분류
  4. 영어 coding prompt로 컴파일
  5. 토큰/속도 측정
  6. 세션 상태 저장

지금 단계에서는 완성도보다 흐름이 실제로 연결되는지가 더 중요하다.


4인 팀 기준 역할 축

4명이면 기능 기준으로 이렇게 나누는 게 제일 깔끔해 보인다.

담당 범위
1명CLI 뼈대, 명령 입력/출력 흐름
1명입력 전처리, 보호 구간 분리, pass-through
1명작업 유형 분류, 규칙 기반 제약 추출
1명토큰 측정, 세션 상태 저장, benchmark

공통으로 같이 봐야 하는 건 두 가지다.

  • 컴파일 프롬프트 규칙
  • 데모 시나리오와 평가 기준

백로그

A. CLI 기본 구조

  • CLI 엔트리 만들기
  • 입력을 받아 내부 파이프라인으로 넘기기
  • 결과를 콘솔에 출력하기
  • 향후 /benchmark 같은 명령을 붙일 수 있게 구조 분리하기

B. 입력 전처리

  • 공백 정리
  • 반복 표현 제거
  • 문장 전처리 규칙 정리
  • 한국어 입력에서 줄여도 되는 표현 / 줄이면 안 되는 표현 기준 잡기

C. 보호 구간 처리

  • 코드 블록 추출
  • 파일 경로 추출
  • 에러 메시지 추출
  • /, @, ! 명령어 pass-through
  • placeholder 치환 후 복원 로직

D. 작업 유형 분류

  • debug / review / explain / generation 최소 4분류
  • 규칙 기반 baseline 만들기
  • TF-IDF + Logistic Regression baseline 만들기
  • 어떤 방식이 더 안정적인지 비교

E. 제약 추출

  • brief / concise / only fix / only bug 같은 표현 추출
  • 출력 형식 제약 추출
  • 코드 관련 여부 판단

F. 프롬프트 컴파일

  • 한국어 입력 -> 영어 명령형 프롬프트 변환
  • 작업 내용 유지
  • 제약 유지
  • 최종 출력은 프롬프트만 반환

G. 토큰/속도 측정

  • 원문 입력 토큰 측정
  • 컴파일 후 입력 토큰 측정
  • 출력 토큰 측정
  • 전체 응답 시간 측정
  • 로그 포맷 정하기

H. 세션 상태 저장

  • 최근 요청 저장
  • 최근 컴파일 결과 저장
  • 다음 턴에서 재사용할 요약 상태 저장
  • 세션 파일 또는 JSON 구조 설계

I. 출력 전략

  • 기본 응답 저장 방식 정하기
  • diff/patch 중심 출력 규칙 실험
  • 후처리로 다음 턴 전달량 줄이는 방식 검토

J. benchmark / 검증

  • 원문 vs 컴파일 비교
  • 토큰 감소량 기록
  • 속도 변화 기록
  • 품질 저하 여부 체크 기준 정하기

이번 주 할 일

이번 주에는 백로그를 다 하는 게 아니라, 데모 가능한 최소 흐름만 먼저 잡는 게 맞다.

필수 구현

  1. CLI로 한국어 입력 1개를 받을 수 있어야 함
  2. 보호 구간을 분리할 수 있어야 함
  3. 요청 유형을 최소 규칙 기반으로 분류할 수 있어야 함
  4. 영어 coding prompt를 1개 출력할 수 있어야 함
  5. 원문 토큰 vs 컴파일 후 토큰 비교가 보여야 함
  6. 세션 상태를 최소한 파일로 저장할 수 있어야 함

주간 작업 분배 예시

담당 1. CLI / 파이프라인

  • CLI 엔트리 구성
  • 입력 -> 처리 -> 출력 흐름 연결
  • 테스트용 명령 실행 흐름 만들기

담당 2. 전처리 / 보호 구간

  • 코드 블록, 경로, 명령어 추출
  • placeholder 치환/복원
  • pass-through 처리

담당 3. 분류 / 제약 추출

  • debug / review / explain / generation 규칙 분류
  • 길이/출력 형식 제약 추출
  • 샘플 입력 세트 정리

담당 4. 측정 / 세션

  • 토큰 측정 함수
  • latency 측정
  • 세션 JSON 저장
  • 로그 포맷 정의

같이 해야 하는 일

  • 컴파일 프롬프트 규칙 확정
  • 테스트용 한국어 입력 샘플 10~20개 만들기
  • benchmark 기준 정하기

데모 전 필수 체크

기능 체크

  • 한국어 입력이 들어간다
  • 보호 구간이 깨지지 않는다
  • 영어 프롬프트가 나온다
  • 토큰 비교 수치가 보인다
  • 세션 상태가 저장된다

품질 체크

  • 의미 손실이 심하지 않은가
  • 제약이 누락되지 않는가
  • debug / review / explain이 너무 비슷하게 처리되지 않는가

안정성 체크

  • 보호 구간 복원이 실패하지 않는가
  • 짧은 입력에서 이상 동작하지 않는가
  • 명령어 pass-through가 안전하게 되는가

발표 체크

  • 원문 입력 예시
  • 컴파일 결과 예시
  • 토큰 전/후 비교
  • 왜 Tokit이 단순 번역기가 아닌지 설명
  • 왜 세션 관리가 중요한지 설명

이번 주 기준 Done 정의

아래가 되면 이번 주는 성공으로 봐도 될 것 같다.

  • 한국어 개발자 요청 하나를 넣으면
  • Tokit이 그걸 영어 coding prompt로 바꾸고
  • 토큰 비교 수치를 보여주고
  • 세션 상태를 남긴다

이 정도면 “아이디어 설명” 단계는 끝나고, 실제 구현 단계로 넘어갔다고 말할 수 있다.

Community

Comments

0 comments

Comments appear immediately. Use report if something needs review.

No comments yet.