ML모델 서빙 프레임워크

<ML 모델 서빙 파이프라인>은 다음 3개의 파트로 나뉜다. 1. 데이터 파이프라인 : 실시간 or 배치로 데이터를 수집 2. 모델 파이프라인 : 모델을 학습시킴 3. 서빙 파이프라인 : 학습된 모델을 서비스로 서빙. 서빙 파이프라인에서는 또 3.1 전처리 3.2 추론 3.3 후처리 을 거쳐 사용자에게 결과를 전달한다. 서빙 파이프라인을 위한 "모델 서빙 프레임워크"에 대해서 정리했다. 모델 서빙 프레임워크 선정 기준 https://tech.kakaopay.com/post/model-serving-framework/#user-content-fnref-1 Warm-up 전, 후 Latency 개선 여부 모델 저장소에 따른 업데이트 방식 Concurrent model execution 여러 개의 모델을 같이 인퍼런스 하나의 모델을 여러 인스턴스로 실행시켜 병렬적으로 인퍼런스 Dynamic Batch 성능 ( Triton ) Triton 서버에서 동적으로 배치 크기를 만들어 인퍼런스 수행 안정성 : 장시간 인퍼런스 가동시 메모리 누수등의 이슈 * 링크의 포스팅에 따르면 모델 서빙 프레임워크 비교를 위해 모델을 Tensorflow 모델로 고정해서 테스트했다. 다른 모델을 사용한다면 결과가 달라질 수도 있다. * 모델 개발을 하는 머신러닝 리서치는 파이썬으로 모델 서빙 백엔드 개발자는 Kotlin+Spring boot로 서버를 개발했다. * 모델별 최적의 포맷이 다른 상황은 여러 개의 모델을 서빙하는 인공지능 서비스에서 개발 생산성 저하와 운영의 부담을 가중시킨다. 모델 서빙 프레임워크 FastAPI Python F...