DevCode : IT 개발 기술 아카이브

    AI Engineering/기본지식 1

    LLM모델과 토크나이저와 임베딩모델

    문서를 로드하고, 자르고, 저장하고, 검색하는 일반적인 RAG 개발 과정에서 필요한 개념을 학습한다. 우리가 보편적으로 사용하는 LLM은 사전 학습단계를 거쳐 만들어진 그야말로 범용 모델이다. 우리가 쓰는 언어는 텍스트로 표현된다. 언어는 비정형데이터로서 컴퓨터가 이해하기 힘들다. 그렇기 때문에 텍스트를 일종의 단어사전(맵핑지도)을 통해 수치화 하는 과정이 필요한데, 여기서 필요한것이 토크나이저 이다.토크나이저는 내부 규칙에 의해서 텍스트를 자르고, 이것을 숫자로 변환한다. 이 토크나이저로 자르고 변환하는 규칙은 각각의 토크나이저별로 다르기 때문에, 반드시 LLM과 세트로 써야한다. 예를들어 BERT 모델을 쓰면서 OPENAPI의 토크나이저를 쓰면 바보가 된다. 학습시 사용했던 토크나이저 방식으로 적용해..

    AI Engineering/기본지식 2026.04.24
    이전
    1
    다음
    더보기
    프로필사진

    DevCode : IT 개발 기술 아카이브

    DevCode : IT 개발 기술 아카이브

    06-10 07:15

    방문자수Total

    • Today :
    • Yesterday :
    • 분류 전체보기 (111)
      • AI Engineering (1)
        • 기본지식 (1)
        • RAG (0)
        • 파인튜닝 (0)
        • 프롬프팅 (0)
        • vision (0)
        • On-device AI (0)
      • Mobile Dev (68)
        • 안드로이드 자바 코틀린 (37)
        • 애플 iOS 스위프트 Xcode (11)
        • 플러터 Flutter (6)
        • 개발후기 (7)
        • 코드와트 코딩강의 (6)
      • IT 테크 기술 지식 공유 (42)
        • 전자 테크 기기 꿀팁 리뷰 사용기 (6)
        • 컴퓨터 일반 맥OS 윈도우 (22)
        • AI 정보 공유 (4)
        • 제품리뷰 (0)

    Copyright © codewatt on devcode

    티스토리툴바