본문 바로가기

카테고리 없음

AI 시스템 구축 키워드 (by. ChatGPT)

1️⃣ AI 시스템(ML Pipeline) 설계 및 배포

(1) 설계 단계 – ML Pipeline 구성

  • 데이터 수집/정제
    • 데이터 품질 관리(중복, 결측치, 편향 제거)
    • 버전 관리(DVC, Lakehouse, Feature Store 등)
  • 모델 학습/검증
    • 학습/검증/테스트 데이터셋 분리
    • Hyperparameter Tuning (Grid, Random, Bayesian, AutoML)
  • Feature Engineering
    • 재사용 가능하도록 Feature Store에 등록
    • Online/Offline feature consistency 고려
  • ML Ops 기반 설계
    • GitOps & CI/CD 파이프라인 구축
    • 모델/데이터 버전 관리(Mlflow, Weights & Biases 등)

(2) 배포 단계 – Serving 전략

  • Batch Serving
    • 하루/주 단위로 예측 결과를 미리 생성 (예: 추천 시스템 오프라인 점수 산출)
  • Online Serving (API)
    • REST/gRPC API 형태로 모델 호출
    • Latency/Throughput 고려 (tens of ms 수준)
  • Hybrid Serving
    • 오프라인에서 사전 계산된 결과 + 실시간 개인화 모델 조합
  • Infrastructure
    • Docker, Kubernetes(K8s), Serverless (AWS Lambda, GCP Cloud Run)
    • GPU/TPU, 혹은 CPU-optimized 모델 경량화(TensorRT, ONNX)

중점사항: 모델 배포는 단순히 모델만 올리는 것이 아니라 API 안정성, 스케일링, 버전 롤백 체계까지 고려해야 함.


2️⃣ AI 시스템 모니터링 및 자동화 (지속운영)

(1) 모니터링 항목

  • 데이터 모니터링
    • Input 데이터 분포 변화(Concept Drift, Data Drift)
    • Missing Value / 이상치 탐지
  • 모델 성능 모니터링
    • Accuracy, Precision/Recall, F1, AUC 등 주요 지표
    • Latency, TPS(QPS), 메모리/CPU 사용량
  • 비즈니스 지표 모니터링
    • 추천 클릭률(CTR), 전환율(CVR), 사용자 유지율 등
  • 로그/알림 시스템
    • Prometheus + Grafana
    • ELK Stack (ElasticSearch, Logstash, Kibana)
    • CloudWatch, Datadog, Sentry

(2) 자동화

  • 재학습 자동화
    • 데이터 Drift 감지 시 → 재학습 트리거
    • CI/CD 파이프라인 통해 자동 재배포
  • 실험 자동화
    • Hyperparameter Search, AutoML
    • 모델 선택 기준 자동화 (Best metric 모델 자동 배포)
  • 테스트 자동화
    • Unit Test (데이터 품질 검증)
    • Integration Test (API 응답 검증)
    • Canary Deployment / Shadow Deployment (실서비스 전 소규모 트래픽 테스트)

중점사항: AI는 코드보다 데이터 의존도가 높으므로, 데이터 모니터링 및 Drift 대응 자동화가 필수.


3️⃣ AI 시스템 최적화

최적화는 크게 성능(모델 정확도), 효율성(리소스), 운영(비즈니스) 측면에서 고려해야함

(1) 모델 최적화

  • 경량화
    • Quantization (FP32 → FP16/INT8)
    • Pruning (불필요한 weight 제거)
    • Knowledge Distillation (대형 모델 → 소형 모델로 압축)
  • Serving 최적화
    • ONNX Runtime, TensorRT, TorchServe
    • Multi-threading, Batching, GPU 활용 극대화
  • 분산 처리
    • Horovod, DeepSpeed, Ray, Spark MLlib

(2) 파이프라인 최적화

  • Feature Store 최적화
    • 실시간/배치 간 일관성 확보
    • 자주 쓰는 feature 캐싱
  • 데이터 파이프라인 최적화
    • Streaming 처리(Kafka, Flink)
    • Data Lake → Delta Lake 구조로 변경
  • 학습 효율성
    • 체크포인트 저장/재개
    • 샘플링 전략 개선(Under/Over sampling)

(3) 운영 최적화

  • 비용 최적화
    • GPU Spot Instance 활용
    • 서버리스 인퍼런스
    • 경량 모델 활용해 Serving 비용 절감
  • 비즈니스 ROI 최적화
    • 모델 정확도 vs Latency trade-off 분석
    • A/B Testing 통해 실제 비즈니스 효과 검증

중점사항: 최적화는 단순한 "성능 향상"이 아니라, 비용 대비 효용 극대화 관점에서 접근해야 함.

 

✅ 정리하면,

  • 설계·배포: 데이터/모델 버전 관리 + CI/CD + 안정적 Serving 구조
  • 모니터링·자동화: Drift/성능/비즈니스 지표 모니터링 + 재학습 자동화
  • 최적화: 모델 경량화 + 파이프라인 효율화 + 비용/비즈니스 효과 균형

 

🔑 키워드 & 포인트 정리

1️⃣ AI 시스템(ML Pipeline) 설계 및 배포

  • Data-centric AI (데이터 품질이 모델 성능 좌우)
  • 데이터 버전 관리: DVC, Feature Store, Data Lake → Delta Lake
  • 모델 버전 관리: MLflow, Weights & Biases
  • CI/CD for ML (MLOps): GitOps, Kubeflow, Airflow
  • 배포 전략
    • Batch Serving ↔ Online Serving ↔ Hybrid
    • API Serving: REST/gRPC, TorchServe, TensorFlow Serving
    • Container & Orchestration: Docker, Kubernetes, Serverless
  • 질문을 해보겠습니다:
    • “ML 파이프라인에서 데이터 관리와 모델 관리가 중요한 이유는?”
    • “Batch Serving과 Online Serving의 장단점을 비교하라.”
    • “CI/CD가 AI 시스템에서 필요한 이유는?”

2️⃣ AI 시스템 모니터링 및 자동화

  • 데이터 Drift / Concept Drift (시간이 지남에 따라 데이터 분포가 바뀜)
  • 모델 성능 모니터링: Accuracy, F1, AUC, Latency, TPS
  • 비즈니스 KPI: CTR, CVR, LTV, Churn rate
  • 로그/모니터링 도구: Prometheus, Grafana, ELK, Datadog
  • 자동화
    • 재학습 자동화 (Drift 감지 → Retrain → CI/CD 자동배포)
    • Canary Deployment / Shadow Deployment (안정성 검증)
    • AutoML / Hyperparameter Search 자동화
  • 질문을 해보겠습니다:
    • “Concept Drift가 발생하면 어떤 문제가 생기며 어떻게 대응할 수 있는가?”
    • “Canary Deployment와 Shadow Deployment 차이를 설명하라.”
    • “재학습 자동화를 구축할 때 고려해야 할 핵심 단계는?”

3️⃣ AI 시스템 최적화

  • 모델 최적화
    • Quantization, Pruning, Knowledge Distillation
    • Serving 최적화: ONNX Runtime, TensorRT, Batching
    • 분산 학습: Horovod, DeepSpeed, Ray
  • 파이프라인 최적화
    • Feature Store 최적화 (Online/Offline Consistency)
    • Streaming Data Pipeline (Kafka, Flink)
    • 체크포인트/샘플링 전략
  • 운영/비용 최적화
    • GPU Spot Instance, Serverless Inference
    • Latency vs Accuracy Trade-off
    • A/B Testing으로 비즈니스 효과 검증
  • 질문을 해보겠습니다:
    • “Knowledge Distillation의 원리와 장점은?”
    • “모델 최적화 기법(Quantization, Pruning)의 차이를 설명하라.”
    • “AI 최적화에서 ‘비용 대비 효용’이 중요한 이유는?”

 

🔑 추가 키워드

1️⃣ AI 시스템 (ML Pipeline) 설계 및 배포

  • Reproducibility (재현성)
    • 동일한 코드·데이터·환경에서 결과 재현 가능해야 함
    • Docker, Conda, Poetry, Reproducible Seed 설정
  • Environment & Dependency Management
    • Python 환경 충돌 방지 (Virtual Env, Poetry, conda-lock)
    • GPU 드라이버/라이브러리(CUDA, cuDNN) 호환성
  • Model Registry
    • 중앙화된 모델 저장소에서 관리 (버전, 메타데이터, 성능 기록)
    • 팀 협업 및 승인 프로세스 가능
  • Infrastructure as Code (IaC)
    • Terraform, Ansible 등으로 환경을 코드화
    • ML Infra (GPU 클러스터, Storage) 자동 생성 가능
  • Deployment Patterns
    • Multi-Model Serving (하나의 엔드포인트에서 여러 모델 제공)
    • A/B Test Deployment (실험군/대조군 트래픽 분배)
    • Blue-Green Deployment (새 버전과 구 버전 무중단 전환)

2️⃣ AI 시스템 모니터링 및 자동화

  • Model Explainability (설명가능성)
    • SHAP, LIME, Captum → 모델 의사결정 해석
    • 규제(금융, 의료 등)에서 필수 요구사항
  • Bias & Fairness Monitoring
    • 성별, 연령, 지역별 성능 차이 모니터링
    • Fairness 지표: Equal Opportunity, Demographic Parity
  • Security & Compliance
    • Adversarial Attack 탐지 (적대적 샘플)
    • GDPR, 개인정보보호법 준수 (데이터 삭제, 익명화)
  • Pipeline Orchestration
    • Airflow, Prefect, Dagster → 데이터 전처리 + 학습 + 평가 + 배포 워크플로 자동화
  • Self-healing Systems
    • 장애 감지 시 자동 재시작 / 롤백
    • SLA/SLI/SLO 기반 운영 (서비스 안정성 지표)

3️⃣ AI 시스템 최적화

  • Data Optimization
    • Active Learning (정보량이 큰 샘플 우선 수집/라벨링)
    • Curriculum Learning (난이도 조절 학습)
    • Data Augmentation (EDA, SMOTE, GAN 기반 증강)
  • Training Optimization
    • Mixed Precision Training (FP16 + FP32 병행, 성능 ↑ 비용 ↓)
    • Gradient Checkpointing (메모리 절약)
    • Parameter-efficient Tuning (LoRA, Prefix Tuning → 대규모 모델 효율 Fine-tuning)
  • Serving Optimization
    • Dynamic Batching (실시간 요청 묶음 처리)
    • Model Caching (자주 쓰는 응답을 캐싱)
    • Hardware-aware Optimization (GPU/TPU/CPU 특성별 최적화)
  • Business-driven Optimization
    • Cost-Aware Scheduling (사용량 피크 시간 GPU만 가동, 비피크는 CPU)
    • Value-based Model Selection (정확도가 조금 떨어져도 운영비용이 낮으면 선택)
    • Elastic Scaling (트래픽에 맞춰 Auto-scaling)

 

관련 문제 생성

: https://picturesque-scribe-d64.notion.site/chatgpt-result2?source=copy_link