1️⃣ AI 시스템(ML Pipeline) 설계 및 배포
(1) 설계 단계 – ML Pipeline 구성
- 데이터 수집/정제
- 데이터 품질 관리(중복, 결측치, 편향 제거)
- 버전 관리(DVC, Lakehouse, Feature Store 등)
- 모델 학습/검증
- 학습/검증/테스트 데이터셋 분리
- Hyperparameter Tuning (Grid, Random, Bayesian, AutoML)
- Feature Engineering
- 재사용 가능하도록 Feature Store에 등록
- Online/Offline feature consistency 고려
- ML Ops 기반 설계
- GitOps & CI/CD 파이프라인 구축
- 모델/데이터 버전 관리(Mlflow, Weights & Biases 등)
(2) 배포 단계 – Serving 전략
- Batch Serving
- 하루/주 단위로 예측 결과를 미리 생성 (예: 추천 시스템 오프라인 점수 산출)
- Online Serving (API)
- REST/gRPC API 형태로 모델 호출
- Latency/Throughput 고려 (tens of ms 수준)
- Hybrid Serving
- 오프라인에서 사전 계산된 결과 + 실시간 개인화 모델 조합
- Infrastructure
- Docker, Kubernetes(K8s), Serverless (AWS Lambda, GCP Cloud Run)
- GPU/TPU, 혹은 CPU-optimized 모델 경량화(TensorRT, ONNX)
중점사항: 모델 배포는 단순히 모델만 올리는 것이 아니라 API 안정성, 스케일링, 버전 롤백 체계까지 고려해야 함.
2️⃣ AI 시스템 모니터링 및 자동화 (지속운영)
(1) 모니터링 항목
- 데이터 모니터링
- Input 데이터 분포 변화(Concept Drift, Data Drift)
- Missing Value / 이상치 탐지
- 모델 성능 모니터링
- Accuracy, Precision/Recall, F1, AUC 등 주요 지표
- Latency, TPS(QPS), 메모리/CPU 사용량
- 비즈니스 지표 모니터링
- 추천 클릭률(CTR), 전환율(CVR), 사용자 유지율 등
- 로그/알림 시스템
- Prometheus + Grafana
- ELK Stack (ElasticSearch, Logstash, Kibana)
- CloudWatch, Datadog, Sentry
(2) 자동화
- 재학습 자동화
- 데이터 Drift 감지 시 → 재학습 트리거
- CI/CD 파이프라인 통해 자동 재배포
- 실험 자동화
- Hyperparameter Search, AutoML
- 모델 선택 기준 자동화 (Best metric 모델 자동 배포)
- 테스트 자동화
- Unit Test (데이터 품질 검증)
- Integration Test (API 응답 검증)
- Canary Deployment / Shadow Deployment (실서비스 전 소규모 트래픽 테스트)
중점사항: AI는 코드보다 데이터 의존도가 높으므로, 데이터 모니터링 및 Drift 대응 자동화가 필수.
3️⃣ AI 시스템 최적화
최적화는 크게 성능(모델 정확도), 효율성(리소스), 운영(비즈니스) 측면에서 고려해야함
(1) 모델 최적화
- 경량화
- Quantization (FP32 → FP16/INT8)
- Pruning (불필요한 weight 제거)
- Knowledge Distillation (대형 모델 → 소형 모델로 압축)
- Serving 최적화
- ONNX Runtime, TensorRT, TorchServe
- Multi-threading, Batching, GPU 활용 극대화
- 분산 처리
- Horovod, DeepSpeed, Ray, Spark MLlib
(2) 파이프라인 최적화
- Feature Store 최적화
- 실시간/배치 간 일관성 확보
- 자주 쓰는 feature 캐싱
- 데이터 파이프라인 최적화
- Streaming 처리(Kafka, Flink)
- Data Lake → Delta Lake 구조로 변경
- 학습 효율성
- 체크포인트 저장/재개
- 샘플링 전략 개선(Under/Over sampling)
(3) 운영 최적화
- 비용 최적화
- GPU Spot Instance 활용
- 서버리스 인퍼런스
- 경량 모델 활용해 Serving 비용 절감
- 비즈니스 ROI 최적화
- 모델 정확도 vs Latency trade-off 분석
- A/B Testing 통해 실제 비즈니스 효과 검증
중점사항: 최적화는 단순한 "성능 향상"이 아니라, 비용 대비 효용 극대화 관점에서 접근해야 함.
✅ 정리하면,
- 설계·배포: 데이터/모델 버전 관리 + CI/CD + 안정적 Serving 구조
- 모니터링·자동화: Drift/성능/비즈니스 지표 모니터링 + 재학습 자동화
- 최적화: 모델 경량화 + 파이프라인 효율화 + 비용/비즈니스 효과 균형
🔑 키워드 & 포인트 정리
1️⃣ AI 시스템(ML Pipeline) 설계 및 배포
- Data-centric AI (데이터 품질이 모델 성능 좌우)
- 데이터 버전 관리: DVC, Feature Store, Data Lake → Delta Lake
- 모델 버전 관리: MLflow, Weights & Biases
- CI/CD for ML (MLOps): GitOps, Kubeflow, Airflow
- 배포 전략
- Batch Serving ↔ Online Serving ↔ Hybrid
- API Serving: REST/gRPC, TorchServe, TensorFlow Serving
- Container & Orchestration: Docker, Kubernetes, Serverless
- 질문을 해보겠습니다:
- “ML 파이프라인에서 데이터 관리와 모델 관리가 중요한 이유는?”
- “Batch Serving과 Online Serving의 장단점을 비교하라.”
- “CI/CD가 AI 시스템에서 필요한 이유는?”
2️⃣ AI 시스템 모니터링 및 자동화
- 데이터 Drift / Concept Drift (시간이 지남에 따라 데이터 분포가 바뀜)
- 모델 성능 모니터링: Accuracy, F1, AUC, Latency, TPS
- 비즈니스 KPI: CTR, CVR, LTV, Churn rate
- 로그/모니터링 도구: Prometheus, Grafana, ELK, Datadog
- 자동화
- 재학습 자동화 (Drift 감지 → Retrain → CI/CD 자동배포)
- Canary Deployment / Shadow Deployment (안정성 검증)
- AutoML / Hyperparameter Search 자동화
- 질문을 해보겠습니다:
- “Concept Drift가 발생하면 어떤 문제가 생기며 어떻게 대응할 수 있는가?”
- “Canary Deployment와 Shadow Deployment 차이를 설명하라.”
- “재학습 자동화를 구축할 때 고려해야 할 핵심 단계는?”
3️⃣ AI 시스템 최적화
- 모델 최적화
- Quantization, Pruning, Knowledge Distillation
- Serving 최적화: ONNX Runtime, TensorRT, Batching
- 분산 학습: Horovod, DeepSpeed, Ray
- 파이프라인 최적화
- Feature Store 최적화 (Online/Offline Consistency)
- Streaming Data Pipeline (Kafka, Flink)
- 체크포인트/샘플링 전략
- 운영/비용 최적화
- GPU Spot Instance, Serverless Inference
- Latency vs Accuracy Trade-off
- A/B Testing으로 비즈니스 효과 검증
- 질문을 해보겠습니다:
- “Knowledge Distillation의 원리와 장점은?”
- “모델 최적화 기법(Quantization, Pruning)의 차이를 설명하라.”
- “AI 최적화에서 ‘비용 대비 효용’이 중요한 이유는?”
🔑 추가 키워드
1️⃣ AI 시스템 (ML Pipeline) 설계 및 배포
- Reproducibility (재현성)
- 동일한 코드·데이터·환경에서 결과 재현 가능해야 함
- Docker, Conda, Poetry, Reproducible Seed 설정
- Environment & Dependency Management
- Python 환경 충돌 방지 (Virtual Env, Poetry, conda-lock)
- GPU 드라이버/라이브러리(CUDA, cuDNN) 호환성
- Model Registry
- 중앙화된 모델 저장소에서 관리 (버전, 메타데이터, 성능 기록)
- 팀 협업 및 승인 프로세스 가능
- Infrastructure as Code (IaC)
- Terraform, Ansible 등으로 환경을 코드화
- ML Infra (GPU 클러스터, Storage) 자동 생성 가능
- Deployment Patterns
- Multi-Model Serving (하나의 엔드포인트에서 여러 모델 제공)
- A/B Test Deployment (실험군/대조군 트래픽 분배)
- Blue-Green Deployment (새 버전과 구 버전 무중단 전환)
2️⃣ AI 시스템 모니터링 및 자동화
- Model Explainability (설명가능성)
- SHAP, LIME, Captum → 모델 의사결정 해석
- 규제(금융, 의료 등)에서 필수 요구사항
- Bias & Fairness Monitoring
- 성별, 연령, 지역별 성능 차이 모니터링
- Fairness 지표: Equal Opportunity, Demographic Parity
- Security & Compliance
- Adversarial Attack 탐지 (적대적 샘플)
- GDPR, 개인정보보호법 준수 (데이터 삭제, 익명화)
- Pipeline Orchestration
- Airflow, Prefect, Dagster → 데이터 전처리 + 학습 + 평가 + 배포 워크플로 자동화
- Self-healing Systems
- 장애 감지 시 자동 재시작 / 롤백
- SLA/SLI/SLO 기반 운영 (서비스 안정성 지표)
3️⃣ AI 시스템 최적화
- Data Optimization
- Active Learning (정보량이 큰 샘플 우선 수집/라벨링)
- Curriculum Learning (난이도 조절 학습)
- Data Augmentation (EDA, SMOTE, GAN 기반 증강)
- Training Optimization
- Mixed Precision Training (FP16 + FP32 병행, 성능 ↑ 비용 ↓)
- Gradient Checkpointing (메모리 절약)
- Parameter-efficient Tuning (LoRA, Prefix Tuning → 대규모 모델 효율 Fine-tuning)
- Serving Optimization
- Dynamic Batching (실시간 요청 묶음 처리)
- Model Caching (자주 쓰는 응답을 캐싱)
- Hardware-aware Optimization (GPU/TPU/CPU 특성별 최적화)
- Business-driven Optimization
- Cost-Aware Scheduling (사용량 피크 시간 GPU만 가동, 비피크는 CPU)
- Value-based Model Selection (정확도가 조금 떨어져도 운영비용이 낮으면 선택)
- Elastic Scaling (트래픽에 맞춰 Auto-scaling)
관련 문제 생성
: https://picturesque-scribe-d64.notion.site/chatgpt-result2?source=copy_link