Scrapy는 크게 세 가지의 컴포넌트로 이루어져 있습니다.
스파이더(Spider): 스파이더는 크롤링할 웹 사이트의 URL과 데이터를 추출하는 방법을 정의합니다. 스파이더는 URL을 따라가며 웹 페이지를 가져와 데이터를 추출하고, 새로운 URL을 찾아서 큐에 추가합니다.
아이템(Item): 아이템은 스파이더에서 추출한 데이터를 담는 컨테이너입니다. 예를 들어, 블로그 게시글의 제목, 작성자, 날짜 등이 아이템이 될 수 있습니다.
파이프라인(Pipeline): 파이프라인은 스파이더에서 추출한 아이템을 처리하는 컴포넌트입니다. 아이템을 처리하면서 데이터를 정제하거나 저장할 수 있습니다.
Scrapy의 구조는 크게 세 가지의 단계로 이루어집니다.
크롤링 시작: 스파이더가 시작되면, 크롤링할 웹 사이트의 URL이 큐에 추가됩니다.
웹 페이지 가져오기 및 데이터 추출: 스파이더는 큐에서 URL을 하나씩 꺼내어 웹 페이지를 가져와 데이터를 추출합니다. 추출한 데이터는 아이템으로 만들어져 파이프라인으로 전달됩니다.
데이터 처리 및 저장: 파이프라인은 스파이더에서 추출한 아이템을 처리하여 데이터를 정제하거나 저장합니다.
이렇게 추출한 데이터는 다양한 형태로 활용될 수 있습니다. Scrapy는 빠르고 강력한 크롤링 프레임워크로, 다양한 크롤링 및 스크래핑 작업에 활용됩니다.