문서 기반 학습 원리

최종 수정: 2026. 1. 9.

문서 기반 학습 원리

Cloudturing이 사용자가 업로드한 문서에서 어떻게 답변을 추출하고 인공지능을 완성하는지에 대한 기술적 원리를 설명합니다.

1. 텍스트 추출 및 전처리 (Parsing)

업로드된 다양한 형식의 파일(PDF, 이미지 등)을 AI가 이해할 수 있는 순수한 텍스트 형태로 변환합니다. 이미지 파일의 경우 고성능 OCR(광학 문자 인식) 엔진을 통해 이미지 속의 글자를 디지털 데이터로 추출합니다.

2. 의미 단위 분할 (Chunking)

추출된 방대한 양의 텍스트를 한꺼번에 학습하는 대신, 질문과 답변으로 구성하기 좋은 적절한 크기의 의미 단위(Chunk)로 잘게 나눕니다. 이를 통해 AI는 특정 질문에 대해 가장 관련성이 높은 본문 구절을 빠르게 찾아낼 수 있습니다.

3. 답변 및 인텐트 생성 (Gen AI)

Google의 최신 대규모 언어 모델(LLM)인 Gemini 가 분할된 텍스트들을 읽고 다음의 분석 과정을 거칩니다.

  • 예상 질문 추출: "이 본문 내용을 본다면 사용자가 무엇을 궁금해할까?"를 고민하여 질문 목록을 만듭니다.
  • 답변 요약: 추출된 예상 질문에 대해 본문의 내용을 바탕으로 가장 정확하고 친절한 답변을 작성합니다.
  • 카테고리 분류: (터보 모드 사용 시) 대/중/소 카테고리를 자동으로 분류하여 체계적인 지식 구조를 만듭니다.

4. 터보 모드 vs 일반 모드

  • 일반 모드 (Batch Mode): 많은 양의 문서를 정교하게 분석할 때 사용하며, 완료까지 다소 시간이 소요될 수 있습니다.
  • 터보 모드 (API Mode): 빠른 속도로 인텐트를 생성해야 할 때 사용합니다. 실시간에 가까운 분석을 제공합니다.

참고: Cloudturing은 문서를 단순히 저장하는 것이 아니라, 문장의 숨은 의도와 맥락을 이해하는 '의미론적 분석(Semantic Analysis)'을 수행하므로 사용자가 문서에 적힌 정확한 단어를 사용하지 않더라도 똑똑하게 대답할 수 있습니다.