반응형

BeautifulSoup 3

파이썬 bs4 beautifulsoup 웹사이트 크롤링 스크래핑

파이썬 bs4 beautifulsoup 웹사이트 크롤링 스크래핑 Beautiful Soup은 웹 스크래핑에 사용되는 타사 Python 라이브러리입니다. 웹 스크래핑 및 HTML 및 XML 문서 구문 분석에 사용되는 이것은 웹사이트에서 데이터를 추출하기 위한 강력한 도구이며 다양한 방식으로 웹사이트와 상호작용하기 위해 Requests와 같은 다른 Python 라이브러리와 함께 사용할 수 있습니다. Beautiful Soup의 주요 기능은 다음과 같습니다. * HTML 및 XML 문서에서 데이터를 구문 분석하고 추출할 수 있습니다. * 간단하고 사용하기 쉬운 구문이 있습니다. * 중첩된 태그와 누락되거나 잘못된 형식의 데이터가 있는 복잡한 HTML 문서를 처리할 수 있습니다. * 태그를 추가하거나 수정하여 ..

파이썬 무신사 이미지 크롤링 다운로드 셀레니움, BeautifulSoup, requests

파이썬 무신사 이미지 크롤링 다운로드 셀레니움, BeautifulSoup, requests 파이썬 셀레니움과 requests, BeautifulSoup 등을 사용하여 웹페이지에 있는 이미지를 다운로드할 수 있습니다. 두 가지 방법에 대해서 소개를 해볼 건데 첫 번째는 셀레니움과 requests를 사용한 이미지 다운로드입니다. 그전에 무신사 사이트의 구조에 대해서 먼저 알아볼 필요가 있습니다. 먼저 무신사 사이트에서 메인 이미지가 보여지는 위치는 클래스 product_img_basic 내부에 있습니다. 코드를 작성할 때 첫 번째로 해당 클래스가 존재하는지 여부를 파악하고 오류를 방지할 수 있습니다. 그리고 여러장의 이미지는 그 하단 product_thumb 클래스에 li 형태로 위치하는 것을 볼 수 있습니..

파이썬 자동화 데이터 웹 크롤링 requests, BeautifulSoup 샘플 프로그래밍

파이썬 자동화 데이터 웹 크롤링 requests, BeautifulSoup 샘플 프로그래밍 파이썬에서 셀레니움과 같이 웹 자동화 기능을 사용해서 웹에서 특정 데이터를 수집할 수 있겠지만 셀레니움은 아무래도 웹을 직접 움직이는 방식이다 보니까 무겁고 속도도 느리다는 단점이 있습니다. 반면 requests와 BeautifulSoup 모듈을 사용하면 보다 간결하고 빠르게 웹 데이터를 수집할 수 있습니다. 두개의 모듈은 pip을 통해서 먼저 설치를 해줘야 합니다. pip install requests pip install beautifulsoup4 그럼 requests 부터 간단한 예시 코드를 보도록 하죠. test = requests.get("https://api.ipify.org", timeout=5).te..

반응형