목록전체 글 (25)
나름개발블로그

ML에서 자주 나오는 임베딩이 뭔지 정리를 하는 시간을 가져가려고 한다. 1. 임베딩이란? ML에서 말하는 임베딩은 쉽게 설명하면 '단어' , '문장' 등을 컴퓨터가 알기 편하게 숫자 벡터로 표현한 것이다. 아주 간단한 예를 들어보면 보면 사과는 [1,0,0] , 배 [ 0,1,0] , 오렌지 [0,0,1] 을 이런식으로 1차원 벡터로 표현 한 것을 임베딩 했다라고 말 할 수 있다. 고차원의 데이터를 저차원으로 표현하는 기법으로, 자연어 처리, 이미지 처리, 추천 시스템 등 다양한 분야에서 활용된다. 변환한 벡터 값에 의미와 정보를 손실없이 변환 하는게 좋은 임베딩이라고 할 수 있다. 다양한 내용을 벡터로 변환하면 사이에 관계를 쉽게 찾아 낼 수 있다. 컴퓨터 비전 모델, AI 챗봇, AI 추천 시스템..

처음에는 간단하게 설치하고 실행해 보는 걸로 하겠다. Langchain 이란설치 실행 1. LangChain 이란 랭체인(LangChain)은 llm을 사용하여 애플리케이션 생성을 단순화하도록 설계된 프레임워크이다. 쉽게 llm을 이용해서 애플리케이션 제작, 테스트등을 할 수 있도록 도와준다. 랭체인에서 vectordb , embedding 단어들이 자주 등장한다. 임베딩이란 단어 ,문장등을 기계가 이해할 수 있도록 숫자 벡터로 표현한 것이다. 이러한 임베딩을 저장하고 있는 DB가 벡터 db이다. 자세한 설명은 추후에 블로그로 정리를 하도록 하겠다. 아마 렝체인을 들어본 사람들은 RAG 또한 많이 들어봤을 것이다. RAG(Retrieval-Augmented Generation)는 대규모 언어..
LLM 이란 Large Language Modle로 언어 모델중에서 파라미터의 개수가 많은 모델 을 뜻한다. 기본적으로 언어 모델이란 입력값을 기반으로 출력값을 통계적으로 답변하는 모델이다. 기술의 발전으로 인해서 거대한 언어 모델을 운영 개발 할 수 있게 되었고 현재 AI 분야에서 매우 핫한 곳이다. 특히 23년도에 open ai에서 발표한 chat gpt로 인해 대중에게 좀 더 다가왔고 현재는 많은 곳에서 llm을 이용한 비즈니스를 진행하고 있고 , 더 발전시키기 위해서 노력하고 있다. llm 을 개인이 직접 개발하는 것은 현실적으로 많은 어려움이 존재 한다. 일반적으로 학습하는데 많은 gpu 자원이 필요 할 뿐아니라 시간 , 데이터도 필요 하다. 그래서 기존에 공개된 모델을 이용해서 fine t..