URL의 지식창고
이 섹션에서는 웹 URL에서 벡터 컬렉션 스냅샷을 만드는 방법에 대해 설명합니다. 먼저 URL을 구조화된 마크다운 파일로 파싱합니다. 그런 다음 마크다운 파일에서 지식창고의 단계를 따라 URL에 대한 임베딩을 만듭니다.
URL 콘텐츠를 마크다운 파일로 구문 분석하기
파이어크롤은 모든 웹사이트를 크롤링하여 LLM 지원 마크다운 또는 구조화된 데이터로 변환할 수 있습니다. 또한 URL과 액세스 가능한 모든 하위 페이지 크롤링도 지원합니다.
파이어크롤을 사용하려면 파이어크롤에 가입하고 API 키를 발급받아야 합니다.
먼저 종속 요소를 설치합니다. 이미 Node.JS 20+가 설치되어 있다고 가정합니다.
git clone https://github.com/JYC0413/firecrawl-integration.git
cd 파이어크롤-통합
npm 설치
그런 다음 터미널에서 API 키를 내보냅니다.
내보내기 FIRECRAWL_KEY="your_api_key_here"
다음으로 다음 명령줄을 사용하여 서비스를 실행할 수 있습니다.
노드 크롤링웹투엠디.js
애플리케이션이 성공적으로 실행되면 터미널에 프롬프트가 표시됩니다.
지금 바로 터미널에 URL을 입력할 수 있습니다. 여기에는 두 가지 선택지가 있습니다.
- 여러 페이지: 다음을 사용하여 링크를 입력하세요.
/
마지막에 프로그램이 크롤링하여 페이지와 그 하위 페이지를 하나의 마크다운 파일로 변환합니다. 이렇게 하면 많은 API 토큰 사용량이 발생합니다. - 단일 페이지: 링크를 입력하지 않고
/
을 입력하면 프로그램이 크롤링하여 현재 페이지를 하나의 마크다운 파일로 변환합니다.
출력 마크다운 파일은 다음 폴더에 위치합니다. output.md
.
마크다운 파일에서 임베딩 만들기
마크다운 파일에서 지식창고 튜토리얼을 따라 마크다운 파일을 임베딩의 스냅샷으로 변환하여 GaiaNet 노드로 가져올 수 있습니다.