1. 스크래핑 기법일반적으로 스크래핑 기법은 정적 스크래핑과 동적 스크래핑의 두 가지 방법으로 얘기하곤 합니다. 하지만 이 두 가지 방식이 혼합된 하이브리드 방식이 훨씬 효율적일 수 있습니다. 일반적으로 사용되는 스크래핑 기법들에 대한 간단한 소개와 하이브리드 방식에 대해 자세히 기술해 보겠습니다.1) 정적 수집 (Static Scraping)대표 도구 : requests + BeautifulSoup, lxml작동 원리 : 서버에 HTTP 요청을 보내 HTML 코드를 텍스트로 받아온 후, 태그를 분석하여 데이터를 추출합니다.적합한 대상 :SSR (Server-Side Rendering) 사이트 : 서버가 이미 데이터가 채워진 완성된 HTML을 보내주는 경우 (예: 위키백과, 전통적인 게시판)로그인이나 복..
Firecrawl은 웹사이트에서 데이터를 추출하고 이를 AI 모델(특히 대규모 언어 모델, LLM)에 바로 사용할 수 있는 형태로 변환해주는 강력한 웹 스크래핑 도구이다. 간단히 말해, 웹 데이터를 "크롤링"하고 "스크랩"해서 깔끔한 마크다운(Markdown)이나 구조화된 데이터(JSON 등)로 바꿔주는 서비스이다.Firecrawl이란?Firecrawl은 Mendable.ai 팀이 개발한 오픈소스 기반의 API 서비스로, 개발자나 데이터 분석가들이 웹에서 데이터를 쉽게 수집할 수 있도록 설계되었다. 복잡한 설정 없이 URL 하나만 주면 해당 웹사이트와 그 하위 페이지를 자동으로 탐색해서 데이터를 가져온다. 특히 LLM에 최적화된 출력(예: 마크다운, 구조화된 데이터)을 제공한다는 점이 큰 특징이다.주요 ..
VScode 에서 코드 내 빨간색 밑줄이 나타난다면 코드에 문법에 오류, 선언되지 않은 변수, 잘못된 함수 호출 등이 있을 때 발생하는데 밑줄에 그어진 부분에 마우스를 올리면 오류 메시지를 확인 할 수 있고 이에 따라 문제를 해결하면 된다. 나의 경우 from playwright.async_api import async_playwright 에 밑줄이 표시되었다. 오류 메시지는 아래와 같은데, 이 오류 메시지는 Pylance에서 playwright.async_api 모듈을 찾을 수 없어서 발생한 것이다. 해결방법1. 모듈 설치 확인 및 설치터미널을 열고 현재 python 환경에 playwright 가 설치되어 있는지 확인해 보자pip show playwright설치가 필요하다면, 다음 명령어를 사용해 설..
이전 발행글2023.05.23 - [Python/Scraping] - [Python selenium] ChromeDriver 버전오류-selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 111 [Python selenium] ChromeDriver 버전오류-selenium.common.exceptions.SessionNotCreatedException: Message: session not created:ChromeDriver는 Python selenium 사용시 필수 프로그램인데, 이 오류는 Chrom..
- Total
- Today
- Yesterday
- 챗gpt
- docker
- chromedriver버전오류
- chrome버전
- 오블완
- 크롤링
- MCP
- Python
- This version of ChromeDriver only supports Chrome version
- vscode 구글시트 연동
- kc인증
- 구글시트연동
- 도커
- 퍼플렉시티
- 청약제도
- 구글시트
- GitHub
- Git
- 티스토리챌린지
- 고양장항신혼희망타운
- Selenium
- 주택청약
- 파이썬
- claude desktop
- claude code
- model context protocol
- notebooklm
- 구글API
- cursor ai
- 청약통장
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |