BambooStreet

Studies and Projects

Preview Image

[NLP] LLM 서빙을 위한 VLLM 이란?

개요 기존 LLM 모델을 서빙하는 것에는 여러 문제점이 존재합니다. 모델 크기가 매우 커지면서 메모리 요구량도 증가했고, 애플리케이션에서의 빠른 추론 시간 요구량도 증가했습니다. 그렇다면 기존 LLM 추론 방식에는 어떤 한계가 있고 vLLM은 어떻게 이를 해결했을까요? 기존 LLM 추론 방식 긴 시퀀스 처리 시 메모리 사용량 급증 주요 메모...

Preview Image

[NLP] LLM의 양자화와 여러 방법론(QAT, AWQ)

개요 최근 LLM의 모델의 크기는 기하 급수적으로 증가하고 있습니다. 단순한 예로, GPT-3는 1750억개의 파라미터를 가지고 있으며 이는 엄청난 양의 저장 공간과 메모리를 필요로 합니다. 이처럼 큰 모델은 추론 시 많은 계산 리소스를 필요로 하며, 이는 높은 운영 비용과 긴 처리 시간으로 이어저 사용자의 만족도를 떨어트리는 결과로 나타납니다....

Preview Image

Twillio와 Flask를 활용해 간단한 콜 서비스 만들기

콜봇 서비스를 개발하면서 Twillio란 플랫폼에 대해 알게되어 이렇게 정리해 보았습니다. Twilio는 클라우드 통신 플랫폼으로, 개발자들이 다양한 통신 기능을 애플리케이션에 쉽게 통합할 수 있게 해주는 서비스입니다. 어떻게 작동하는지, 번호 구매부터 Flask app과의 연동까지 함께 알아보도록 합시다. 번호 구매 홈페이지에서 좌측 ...

더 보기

Daily life and Interests