안녕하세요 미토리야입니다.
오늘은 웹크롤링에 대한 설치방법 및 실행 알아보려고 합니다.
아주 쉬우니까 그대로 따라하시면 됩니다.
셀레니움은 웹사이트를 테스트 및 자동화하는데 사용하는 프레임워크입니다.
셀레니움을 사용하면, 화면 새로고침없이 발생하는 스크립트까지 제어할 수 있습니다.
파이썬 기반이기 때문에, 설치가 안되어 있다면, 먼저 파이썬 설치를 하셔야합니다.
한번 불러온 페이지내에서 제어하는 뷰티플수프보다 더 많은 것들을 해볼 수 있겠죠?
같이 사용한다면, 셀레니움의 제약사항을 보완하면서 사용할 수 있습니다.
그래서 저희는 셀레니움과 뷰티플수프 모두 설치해서 진행을 할 것입니다.
파이썬 설치
최신버젼의 python을 다운로드해서 설치합니다.
https://www.python.org/downloads/
2022.4.6기준 3.10.4 버젼입니다.
클릭해서 특별한 설정없이 Next버튼을 계속 누르시면 설치가 완료됩니다.
나중에 실행할 때, python으로 실행하기 때문에, 반드시 설치해야합니다.
셀레니움 설치
명령어 창(Window키+R) 실행 후, pip를 사용해 아래와 같은 명령어로 설치합니다.
pip install selenium
아래와 같이 설치를 정상 완료합니다.
뷰티플수프 설치
명령어 창(Window키+R) 실행 후, pip를 사용해 아래와 같은 명령어로 설치합니다.
pip install bs4
아래와 같이 설치를 정상 완료합니다.
셀레니움과 뷰티플수프 설치를 완료했습니다.
브라우저 드라이버 종류
셀레니움은 크롬, 엣지, 파이어폭스,사파리에서 작동합니다. 사용하려면 웹드라이버 설치해야 사용할 수 있습니다.
크롬 드라이버 설치
저희는 크롬 브라우저에서 테스트를 할 것입니다.
먼저 크롬 브라우저를 설치합니다(설치가 안되어 있을 경우).
아래 사이트에서 크롬드라이버를 다운로드합니다.
https://sites.google.com/chromium.org/driver/
크롬은 버젼별로 크롬 드라이버가 일치하지않으면 사용시 에러가 납니다.
크롬 버젼은 다음 내용을 URL에 입력하면 확인가능합니다.
chrome://version
버젼을 확인한 후, 다시 다운로드 페이지에서 맞는 버젼을 다운로드합니다.
다운로드 후, 폴더에서 압축 파일(.zip)을 풀면, 실행파일(.exe)이 나옵니다.
chromedriver.exe를 클릭해서 실행하면, 아래와 같은 실행화면이 나옵니다.
Selenium 사이트 브라우징
이제 Selenium으로사이트 브라우징을 합시다.
크롬 드라이버의 Webdriver api 를 사용해서 브라우저를 제어합니다.
from selenium import webdriver
이제 특정 웹사이트를 열어 볼까요?
implicitly_wait(1)은 최대 1초 까지 driver 작동을 기다리겠다는 설정입니다.
1초 이전에 driver 로딩시 작동하는 코드입니다.
get으로 해당 웹사이트를 실행합니다.
from selenium import webdriver
mydriver = webdriver.Chrome('/Users/mtsea/Downloads/chromedriver')
mydriver.implicitly_wait(1)
mydriver.get('https://www.naver.com')
Selenium 실행하기
셀레니움코드를 실행하려면, 파이썬으로 실행해야합니다.
명령어 창(Window키+R) 실행 후, python 명령어를 사용해 아래와 같은 명령어로 실행합니다.
python main.py
아래와 같은 경우, main.py라는 파일에 위의 소스를 저장했습니다.
아래는 실행 결과 화면입니다. 크롬 웹브라우저에서 해당 사이트가 실행된 것을 볼 수 있습니다.
꿀팁! 셀레니움을 간단하게 실행하는 방법.
명령어로 실행하면 복잡할 수있습니다.
비쥬얼스튜디오코드(VisualStudio Code)를 사용하면 클릭한번으로 코드실행을 할 수 있습니다.
다음시간으로는 셀레니움 기초 문법에 대해 사용해 보겠습니다.
업데이트 날짜 : 2022.4.6