반응형

크롤링 3

파이썬 bs4 beautifulsoup 웹사이트 크롤링 스크래핑

파이썬 bs4 beautifulsoup 웹사이트 크롤링 스크래핑 Beautiful Soup은 웹 스크래핑에 사용되는 타사 Python 라이브러리입니다. 웹 스크래핑 및 HTML 및 XML 문서 구문 분석에 사용되는 이것은 웹사이트에서 데이터를 추출하기 위한 강력한 도구이며 다양한 방식으로 웹사이트와 상호작용하기 위해 Requests와 같은 다른 Python 라이브러리와 함께 사용할 수 있습니다. Beautiful Soup의 주요 기능은 다음과 같습니다. * HTML 및 XML 문서에서 데이터를 구문 분석하고 추출할 수 있습니다. * 간단하고 사용하기 쉬운 구문이 있습니다. * 중첩된 태그와 누락되거나 잘못된 형식의 데이터가 있는 복잡한 HTML 문서를 처리할 수 있습니다. * 태그를 추가하거나 수정하여 ..

파이썬 자동화 데이터 웹 크롤링 requests, BeautifulSoup 샘플 프로그래밍

파이썬 자동화 데이터 웹 크롤링 requests, BeautifulSoup 샘플 프로그래밍 파이썬에서 셀레니움과 같이 웹 자동화 기능을 사용해서 웹에서 특정 데이터를 수집할 수 있겠지만 셀레니움은 아무래도 웹을 직접 움직이는 방식이다 보니까 무겁고 속도도 느리다는 단점이 있습니다. 반면 requests와 BeautifulSoup 모듈을 사용하면 보다 간결하고 빠르게 웹 데이터를 수집할 수 있습니다. 두개의 모듈은 pip을 통해서 먼저 설치를 해줘야 합니다. pip install requests pip install beautifulsoup4 그럼 requests 부터 간단한 예시 코드를 보도록 하죠. test = requests.get("https://api.ipify.org", timeout=5).te..

파이썬 프로그래밍 셀레니움 웹크롤링 간단한 예제

파이썬 프로그래밍 셀레니움 웹크롤링 간단한 예제 파이썬 프로그래밍으로 특정 웹사이트의 데이터를 가져와 처리하는 것은 어렵지 않습니다. 대표적으로 웹크롤링에 사용이 되는 라이브러리로는 Selenium과 Beautifulsoup 두가지가 있는데요 오늘은 웹의 자동화를 직접 눈으로 보면서 데이터 처리가 가능한 Selenium 사용법에 대해서 알아보도록 하겠습니다. 예제로 데이터를 처리할 사이트는 무신사로 정했습니다. 스토어에서 후드티를 검색하고 리스트에 있는 의류 제목을 가져오려고 합니다. ▶무신사 사이트 바로가기 먼저 예제의 전체 코드는 다음과 같습니다. from selenium import webdriver # 웹드라이버 옵션 추가 options = webdriver.ChromeOptions() optio..

반응형