본문 바로가기 메뉴 바로가기

How do I live?

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

How do I live?

검색하기 폼
  • 분류 전체보기 (114)
    • How to live my life? (9)
    • The MindSet (7)
    • Side hustle (6)
      • store (6)
    • Coding Study (29)
      • Python (6)
      • Scraping (8)
      • DB (0)
      • Flask (1)
      • Google spreadsheet (3)
      • Docker (5)
      • Git & Github (3)
      • Vanilla JS (2)
    • AI (20)
      • AI (3)
      • Chatgpt (0)
      • Google AI (3)
      • Cursor AI (4)
      • MCP (3)
      • Claude Code (0)
      • AI Agent (1)
      • AI News (1)
    • Project (1)
      • Stock Management (3)
      • 이메일 송장번호 수집 (1)
      • API program (2)
      • AWS Lightsail (1)
    • Obsidian (4)
    • IT tips (8)
    • City & House (20)
      • 주택청약 (12)
      • News (4)
      • Story (4)
    • Health (2)
    • Education (1)
  • 방명록

Coding Study/Scraping (8)
고성능 스크래핑 전략 - Selenium의 안정성과 Requests의 속도 결합

1. 스크래핑 기법일반적으로 스크래핑 기법은 정적 스크래핑과 동적 스크래핑의 두 가지 방법으로 얘기하곤 합니다. 하지만 이 두 가지 방식이 혼합된 하이브리드 방식이 훨씬 효율적일 수 있습니다. 일반적으로 사용되는 스크래핑 기법들에 대한 간단한 소개와 하이브리드 방식에 대해 자세히 기술해 보겠습니다.1) 정적 수집 (Static Scraping)대표 도구 : requests + BeautifulSoup, lxml작동 원리 : 서버에 HTTP 요청을 보내 HTML 코드를 텍스트로 받아온 후, 태그를 분석하여 데이터를 추출합니다.적합한 대상 :SSR (Server-Side Rendering) 사이트 : 서버가 이미 데이터가 채워진 완성된 HTML을 보내주는 경우 (예: 위키백과, 전통적인 게시판)로그인이나 복..

Coding Study/Scraping 2025. 12. 16. 20:17
firecrawl 사용방법

Firecrawl은 웹사이트에서 데이터를 추출하고 이를 AI 모델(특히 대규모 언어 모델, LLM)에 바로 사용할 수 있는 형태로 변환해주는 강력한 웹 스크래핑 도구이다. 간단히 말해, 웹 데이터를 "크롤링"하고 "스크랩"해서 깔끔한 마크다운(Markdown)이나 구조화된 데이터(JSON 등)로 바꿔주는 서비스이다.Firecrawl이란?Firecrawl은 Mendable.ai 팀이 개발한 오픈소스 기반의 API 서비스로, 개발자나 데이터 분석가들이 웹에서 데이터를 쉽게 수집할 수 있도록 설계되었다. 복잡한 설정 없이 URL 하나만 주면 해당 웹사이트와 그 하위 페이지를 자동으로 탐색해서 데이터를 가져온다. 특히 LLM에 최적화된 출력(예: 마크다운, 구조화된 데이터)을 제공한다는 점이 큰 특징이다.주요 ..

Coding Study/Scraping 2025. 4. 2. 16:53
VS code에서 코드내 빨간색 밑줄 문제해결

VScode 에서 코드 내 빨간색 밑줄이 나타난다면 코드에 문법에 오류, 선언되지 않은 변수, 잘못된 함수 호출 등이 있을 때 발생하는데 밑줄에 그어진 부분에 마우스를 올리면 오류 메시지를 확인 할 수 있고 이에 따라 문제를 해결하면 된다. 나의 경우 from playwright.async_api import async_playwright 에 밑줄이 표시되었다. 오류 메시지는 아래와 같은데, 이 오류 메시지는 Pylance에서 playwright.async_api 모듈을 찾을 수 없어서 발생한 것이다.  해결방법1. 모듈 설치 확인 및 설치터미널을 열고 현재 python 환경에 playwright 가 설치되어 있는지 확인해 보자pip show playwright설치가 필요하다면, 다음 명령어를 사용해 설..

Coding Study/Scraping 2024. 10. 30. 13:49
[Python selenium] ChromeDriver 버전 오류 해결하기

이전 발행글2023.05.23 - [Python/Scraping] - [Python selenium] ChromeDriver 버전오류-selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 111 [Python selenium] ChromeDriver 버전오류-selenium.common.exceptions.SessionNotCreatedException: Message: session not created:ChromeDriver는 Python selenium 사용시 필수 프로그램인데, 이 오류는 Chrom..

Coding Study/Scraping 2024. 2. 13. 19:10
이전 1 2 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • 챗gpt
  • docker
  • chromedriver버전오류
  • chrome버전
  • 오블완
  • 크롤링
  • MCP
  • Python
  • This version of ChromeDriver only supports Chrome version
  • vscode 구글시트 연동
  • kc인증
  • 구글시트연동
  • 도커
  • 퍼플렉시티
  • 청약제도
  • 구글시트
  • GitHub
  • Git
  • 티스토리챌린지
  • 고양장항신혼희망타운
  • Selenium
  • 주택청약
  • 파이썬
  • claude desktop
  • claude code
  • model context protocol
  • notebooklm
  • 구글API
  • cursor ai
  • 청약통장
more
«   2025/12   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바