주요 콘텐츠로 건너뛰기
버전: 1.0.0

PDF 파일의 지식창고

이 섹션에서는 PDF 파일에서 벡터 컬렉션 스냅샷을 만드는 방법에 대해 설명합니다. 먼저 비정형 PDF 파일을 정형 마크다운 파일로 파싱합니다. 그런 다음 지식창고의 마크다운 파일에서 임베딩하기 단계에 따라 PDF 파일에 대한 임베딩을 만듭니다.

PDF 파일을 마크다운 파일로 변환하는 도구

도구 #1: 라마파스

LlamaParse는 최적의 RAG를 위해 파일을 구문 분석하는 도구입니다. https://cloud.llamaindex.ai 에서 LlamaCloud 키가 필요합니다 .

먼저 종속 요소를 설치합니다. 이미 Node.JS 20+가 설치되어 있다고 가정합니다.

git clone https://github.com/alabulei1/llamaparse-integration.git
cd llamaparse-integration
npm 설치 llamaindex
npm 설치 dotenv

그런 다음 .env 파일을 사용하여 PDF 파일 경로와 LlamaCloud 키를 설정합니다. 이 경우 LLM 관련 설정은 신경 쓸 필요가 없습니다.

그런 다음 다음 명령줄을 실행하여 PDF를 마크다운 파일로 구문 분석합니다.

npx tsx transMd.ts

출력 마크다운 파일은 다음 폴더에 위치합니다. output.md 로 설정됩니다. 경로를 변경하려면 .env 파일을 만듭니다.

도구 #2: GPTPDF

GPTPDF는 GPT-4o를 사용하여 PDF를 마크다운으로 파싱하는 오픈 소스 도구입니다. 여기에는 OpenAI 키가 필요합니다.

먼저 gptpdf 소프트웨어를 설치합니다.

pip 설치 gptpdf

그런 다음 Python 환경으로 들어갑니다.

python

다음으로 다음 명령을 사용하여 PDF를 구문 분석합니다.

gptpdf에서 parse_pdf 가져오기
api_key = '귀하의 OpenAI API 키'
content, image_paths = parse_pdf(Your_Pdf_Path, api_key=api_key)
print(content)

출력 마크다운 파일은 output.md 은 루트 디렉토리에 위치합니다.

마크다운 파일에서 임베딩 만들기

마크다운 파일에서 지식창고 튜토리얼을 따라 마크다운 파일을 임베딩의 스냅샷으로 변환하여 GaiaNet 노드로 가져올 수 있습니다.