데이터 기초

AB테스트

데이터왕 2024. 1. 4. 16:02

2024. 1. 4. 16:02

AB 테스트란?

유래 : 신약을 테스트 할때 기준을 정하고(혈압, 혈당 등) 신약,구약 후보군을 둘로 나눠서 효능 테스트함. AB 후보군의 혈당, 혈압의 차이가 통계적 의미를 가지는 정도 인지를 본다. 이를 코드 개발에도 적용하게됨. A와 B 페이지를 동시에 구성해서 A페이지 B페이지의 고객 행동의 차이가 있는지 관찰가능.
+가설 : 이 약을 먹으면 혈압이 증가할 것이다.
AB 테스트는 새로운 기능이나 변경이 생겼을때, 가설을 실험하고 검증할 때 쓰인다.
예) 상품 추천 알고리즘을 머신러닝으로 하면 매출이 늘어날 것이다. -> AB 테스트 검증 -> 사실
예) 상품 스텝을 줄이면 결제가 올라갈것이다. -> AB 테스트 검증 -> 비싼 상품은 신뢰도가 더 중요

AB테스트 장단점

장점:
1. 성능 최적화:
   - A/B 테스트를 통해 여러 버전을 동시에 평가하므로 어떤 기능 또는 디자인이 사용자에게 가장 긍정적인 영향을 미치는지 확인할 수 있습니다.
   - 이를 통해 성능을 최적화하고 사용자 만족도를 높일 수 있습니다.

2. 데이터 기반 의사결정:
   - A/B 테스트는 데이터 기반의 의사결정을 가능하게 합니다. 통계적으로 유의미한 결과를 얻어, 개선 사항을 신뢰성 있게 판단할 수 있습니다.

3. 배우기 쉬움:
   - A/B 테스트는 비교적 간단한 개념으로, 초기 단계에서 적용하기 쉽습니다.
   - 실험과 통계 분석에 대한 지식을 키우는 데 도움이 됩니다.

4. 비즈니스 목표 달성:
   - 비즈니스 목표를 달성하기 위한 최적의 전략을 찾아내는 데 도움이 됩니다.
   - 기능이나 디자인 변경이 실제로 비즈니스 성과에 어떤 영향을 미치는지 확인할 수 있습니다.

5. 위험부담 감소
- 잘못돼도 절반의 위험
단점:
1. 시간과 비용 소모:
   - A/B 테스트를 실시하기 위해서는 시간과 자원이 소모됩니다. 두 가지 이상의 버전을 개발하고, 테스트를 실행하며, 결과를 분석하는 데에 시간과 비용이 듭니다. (airbnb의 경우 70% 데이터 사용)

2. 리소스 낭비:
   - 실패한 변형에 할당된 리소스는 낭비될 수 있습니다. 실험 결과가 예상치 못하게 나오면 투자한 노력과 비용이 낭비될 수 있습니다.

3. 테스트 설계의 어려움:
   - 적절한 실험 설계를 수립하는 것이 어려울 수 있습니다. 변수의 올바른 설정, 샘플 크기 결정 등이 중요하며, 실수할 경우 결과의 신뢰도가 감소할 수 있습니다.

4. 유의미한 결과 부족:
   - 가끔은 테스트 결과가 유의미한 차이를 보이지 않을 수 있습니다. 이는 사용자 행동의 복잡성이나 다양성 때문일 수 있습니다.

AB테스트 사용하면 안되는 경우

가설에 근거가 없거나 구체적이지 않은 아이디어
버그 수정을 위한 AB 테스트(둘중에 더 좋은걸 판단하는게 AB테스트, 버그는 그냥 빨리 고쳐!)
비교 대상이 하나가 아닌경우
트래픽이 별로없는 서비스의 경우, 어짜피 분석해봤자 유의미한 결과가 나오기 힘들다.
어떤 결정(가격)은 데이터로만 판단할수 없음 : 거시적 경제상황, 경쟁사의 가격정책도 고려
분석에 필요한 데이터 품질이 낮은경우
특정팀이나 개인의 의견만이 반영되는 환경
리뷰 리딩하는 사람이 주니어라 No라는 말을 잘 못하는 경우 -> 시니어급으로 할것

AB테스트 실제 예

가격 인상 전에도 AB테스트를 해봄. 인상군 비인상군 비교-> 큰차이가 안남 -> 큰차이가 안나서 가격을 일괄올림 -> 판매량 급감

AB 테스트는 agile 해야함

주요한 Agile 원칙은 "개발자와 비즈니스 담당자 간의 긴밀한 협력",
"작동하는 소프트웨어를 우선으로",
"변화에 대응하는 유연한 계획",
"자주 배포"

AB테스트 과정

실행전 AB테스트 제안
성공기준 정함
실행중 AB테스트 결과 리뷰

AB테스트 실제과정

0~1% smoke test : B가 버그가 있는지 확인하는 정도
5~10% initial ramp : 가설 확인
25~50% intermediate ramp : 가설과 별도로 매출의 영향을 봄
100% Final ramp-up : 최종 판단 후 결정

AB 테스트 분석을 위해 필요한 정보

사용자별 AB 버킷 정보(사용자중 누가 A들어갔고, B에 들어갔는지)
사용자별 행동 정보(본거,클릭, 구매)
-> 1,2 join 해서 그룹간 통계 정보 계산

AB테스트 시스템 구성

작은 회사는 SaaS 를 사용
런타임 시스템(버킷 결정로직 중요) + 분석시스템 2개로 나뉜다.

전체과정

AA테스트

AA 테스트는 기본적으로 A/B 테스트에서 A와 A로 구성된 실험입니다. 즉, 두 그룹이 동일한 조건에서 같은 변종을 보는 실험입니다. 이는 주로 실험 환경의 안정성을 확인하거나 테스트 시스템의 정확성을 검증하기 위해 사용됩니다.

userid vs deviceid

userid : 등록사용자
deviceid : 로그인 상관없이 서비스 방문자에게 부여되는 id, 브라우저 쿠키로 만들어짐
나누는 방법들

outlier가 A/B 테스트에 미치는 영향

큰손들의 구매
특정 이슈로 인한 과 트래픽 발생

'데이터 기초' 카테고리의 다른 글

ETL 기초 실습 (0)	2023.12.31
테스트 코드 구조 소개 (1)	2023.12.25
워드클라우드 이용 데이터 시각화 (0)	2023.10.27
셀레니엄 이용한 자동화 웹 스크래핑 (0)	2023.10.26

ETL 기초 실습

데이터왕 2023. 12. 31. 13:34

2023. 12. 31. 13:34

In [3]:

%load_ext sql

In [1]:

!pip install ipython-sql==0.4.1
!pip install SQLAlchemy==1.4.49

WARNING: Ignoring invalid distribution -qlalchemy (/usr/local/lib/python3.10/dist-packages)
Requirement already satisfied: ipython-sql==0.4.1 in /usr/local/lib/python3.10/dist-packages (0.4.1)
Requirement already satisfied: prettytable<1 in /usr/local/lib/python3.10/dist-packages (from ipython-sql==0.4.1) (0.7.2)
Requirement already satisfied: ipython>=1.0 in /usr/local/lib/python3.10/dist-packages (from ipython-sql==0.4.1) (7.34.0)
Requirement already satisfied: sqlalchemy>=0.6.7 in /usr/local/lib/python3.10/dist-packages (from ipython-sql==0.4.1) (1.4.49)
Requirement already satisfied: sqlparse in /usr/local/lib/python3.10/dist-packages (from ipython-sql==0.4.1) (0.4.4)
Requirement already satisfied: six in /usr/local/lib/python3.10/dist-packages (from ipython-sql==0.4.1) (1.16.0)
Requirement already satisfied: ipython-genutils>=0.1.0 in /usr/local/lib/python3.10/dist-packages (from ipython-sql==0.4.1) (0.2.0)
Requirement already satisfied: setuptools>=18.5 in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (67.7.2)
Requirement already satisfied: jedi>=0.16 in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (0.19.1)
Requirement already satisfied: decorator in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (4.4.2)
Requirement already satisfied: pickleshare in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (0.7.5)
Requirement already satisfied: traitlets>=4.2 in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (5.7.1)
Requirement already satisfied: prompt-toolkit!=3.0.0,!=3.0.1,<3.1.0,>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (3.0.43)
Requirement already satisfied: pygments in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (2.16.1)
Requirement already satisfied: backcall in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (0.2.0)
Requirement already satisfied: matplotlib-inline in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (0.1.6)
Requirement already satisfied: pexpect>4.3 in /usr/local/lib/python3.10/dist-packages (from ipython>=1.0->ipython-sql==0.4.1) (4.9.0)
Requirement already satisfied: greenlet!=0.4.17 in /usr/local/lib/python3.10/dist-packages (from sqlalchemy>=0.6.7->ipython-sql==0.4.1) (3.0.2)
Requirement already satisfied: parso<0.9.0,>=0.8.3 in /usr/local/lib/python3.10/dist-packages (from jedi>=0.16->ipython>=1.0->ipython-sql==0.4.1) (0.8.3)
Requirement already satisfied: ptyprocess>=0.5 in /usr/local/lib/python3.10/dist-packages (from pexpect>4.3->ipython>=1.0->ipython-sql==0.4.1) (0.7.0)
Requirement already satisfied: wcwidth in /usr/local/lib/python3.10/dist-packages (from prompt-toolkit!=3.0.0,!=3.0.1,<3.1.0,>=2.0.0->ipython>=1.0->ipython-sql==0.4.1) (0.2.12)
WARNING: Ignoring invalid distribution -qlalchemy (/usr/local/lib/python3.10/dist-packages)
WARNING: Ignoring invalid distribution -qlalchemy (/usr/local/lib/python3.10/dist-packages)
Requirement already satisfied: SQLAlchemy==1.4.49 in /usr/local/lib/python3.10/dist-packages (1.4.49)
Requirement already satisfied: greenlet!=0.4.17 in /usr/local/lib/python3.10/dist-packages (from SQLAlchemy==1.4.49) (3.0.2)
WARNING: Ignoring invalid distribution -qlalchemy (/usr/local/lib/python3.10/dist-packages)

ID와 PW와 (본인스키마)를 자신의 것으로 변경

In [4]:

%sql postgresql://wearealego:Wearealego!1@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev

In [5]:

%%sql SELECT schema_name
FROM information_schema.schemata;

 * postgresql://wearealego:***@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev
1 rows affected.

Out[5]:

schema_name
wearealego

In [ ]:

%%sql SELECT tablename
FROM pg_tables
WHERE schemaname = 'wearealego';

 * postgresql://wearealego:***@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev
1 rows affected.

Out[ ]:

tablename
name_gender

In [6]:

%%sql
drop table if exists wearealego.name_gender;
create table wearealego.name_gender(
  name varchar(32) primary key,
  gender varchar(8)
);

 * postgresql://wearealego:***@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev
Done.
Done.

Out[6]:

[]

In [7]:

import psycopg2

# Redshift connection 함수
# 본인 ID/PW 사용!
def get_Redshift_connection():
    host = "learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com"
    redshift_user = "wearealego"
    redshift_pass = "Wearealego!1"
    port = 5439
    dbname = "dev"
    conn = psycopg2.connect("dbname={dbname} user={user} host={host} password={password} port={port}".format(
        dbname=dbname,
        user=redshift_user,
        password=redshift_pass,
        host=host,
        port=port
    ))
    conn.set_session(autocommit=True)
    return conn.cursor()

ETL 함수를 하나씩 정의¶

In [8]:

import requests

def extract(url):
    f = requests.get(url)
    return (f.text)

In [9]:

def transform(text):
    #[1:]로 헤더 제외
    lines = text.strip().split("\n")[1:]
    records = []
    for l in lines:
      # l = "gwanghyeon,M" -> [ 'gwanghyeon', 'M' ]
      (name, gender) = l.split(",")
      records.append([name, gender])
    return records

In [26]:

def load(records):
    """
    records = [
      [ "gwanghyeon", "M" ],
      [ "Claire", "F" ],
      ...
    ]
    """

    schema='wearealego'
    # 문제는 실행시마다 값이 달라짐 그래서 수정해야함
    # BEGIN과 END를 사용해서 SQL 결과를 트랜잭션으로 만들어주는 것이 좋음
    cur = get_Redshift_connection()
    cur.execute("BEGIN;")

    # DELETE 문을 사용하여 테이블의 기존 데이터 삭제
    cur.execute(f"DELETE FROM {schema}.name_gender;")
    try:
      # DELETE FROM을 먼저 수행 -> FULL REFRESH을 하는 형태
      for r in records:
          name = r[0]
          gender = r[1]
          print(name, "-", gender)
          sql = f"INSERT INTO {schema}.name_gender VALUES ('{name}', '{gender}')"
          cur.execute(sql)
      # COMMIT 트랜잭션 완료, cur.execute("END;")도 같은기능
      cur.execute("COMMIT;")
    except (Exception, psycopg2.DatabaseError) as error:
      print(error)
      cur.execute("rollback;")

이제 Extract부터 함수를 하나씩 실행¶

In [27]:

link = "https://s3-geospatial.s3-us-west-2.amazonaws.com/name_gender.csv"

data = extract(link)

In [28]:

data

Out[28]:

'name,gender\nAdaleigh,F\nAmryn,Unisex\nApurva,Unisex\nAryion,M\nAlixia,F\nAlyssarose,F\nArvell,M\nAibel,M\nAtiyyah,F\nAdlie,F\nAnyely,F\nAamoni,F\nAhman,M\nArlane,F\nArmoney,F\nAtzhiry,F\nAntonette,F\nAkeelah,F\nAbdikadir,M\nArinze,M\nArshaun,M\nAlexandro,M\nAyriauna,F\nAqib,M\nAlleya,F\nAavah,F\nAnesti,Unisex\nAdalaide,F\nAnalena,F\nAlaeyah,F\nAlbena,F\nAimi,F\nAdwaith,M\nArkady,M\nAstyn,Unisex\nAdelee,F\nAgata,F\nAlegna,F\nAltan,M\nAhnaleigh,F\nAlgie,Unisex\nAshanti,F\nAislyn,F\nAdaleine,F\nAnthnoy,M\nAlgernon,M\nAeryona,F\nAdrinne,F\nAddell,F\nAvril,F\nAhni,F\nAimon,M\nAdolpho,M\nAhuva,F\nAurielle,F\nAveana,F\nAliyia,F\nAlesander,M\nAdnrea,F\nAnjae,F\nAlvine,F\nAdorah,F\nAdlemi,F\nAlesi,F\nAlontae,M\nAntonny,M\nAdarah,F\nAyreanna,F\nAntyon,M\nAndia,F\nAshla,F\nAspyn,F\nAntwanett,F\nAundreia,F\nAudella,F\nAmari,Unisex\nArsha,Unisex\nAricella,F\nAdan,M\nApasra,F\nAlaysha,F\nAnderson,M\nAurelius,M\nAerial,F\nAverleigh,F\nAslean,F\nArniesha,F\nAsyana,F\nAnnjane,F\nAmabella,F\nAustinjohn,M\nArloween,F\nAlula,M\nAnemone,F\nAmorina,F\nAnureet,F\nArric,M\nAntonne,M\nAlyre,M\nAnnaise,F\n'

In [29]:

lines = transform(data)

In [30]:

lines[0:10]

Out[30]:

[['Adaleigh', 'F'],
 ['Amryn', 'Unisex'],
 ['Apurva', 'Unisex'],
 ['Aryion', 'M'],
 ['Alixia', 'F'],
 ['Alyssarose', 'F'],
 ['Arvell', 'M'],
 ['Aibel', 'M'],
 ['Atiyyah', 'F'],
 ['Adlie', 'F']]

In [31]:

load(lines)

Adaleigh - F
Amryn - Unisex
Apurva - Unisex
Aryion - M
Alixia - F
Alyssarose - F
Arvell - M
Aibel - M
Atiyyah - F
Adlie - F
Anyely - F
Aamoni - F
Ahman - M
Arlane - F
Armoney - F
Atzhiry - F
Antonette - F
Akeelah - F
Abdikadir - M
Arinze - M
Arshaun - M
Alexandro - M
Ayriauna - F
Aqib - M
Alleya - F
Aavah - F
Anesti - Unisex
Adalaide - F
Analena - F
Alaeyah - F
Albena - F
Aimi - F
Adwaith - M
Arkady - M
Astyn - Unisex
Adelee - F
Agata - F
Alegna - F
Altan - M
Ahnaleigh - F
Algie - Unisex
Ashanti - F
Aislyn - F
Adaleine - F
Anthnoy - M
Algernon - M
Aeryona - F
Adrinne - F
Addell - F
Avril - F
Ahni - F
Aimon - M
Adolpho - M
Ahuva - F
Aurielle - F
Aveana - F
Aliyia - F
Alesander - M
Adnrea - F
Anjae - F
Alvine - F
Adorah - F
Adlemi - F
Alesi - F
Alontae - M
Antonny - M
Adarah - F
Ayreanna - F
Antyon - M
Andia - F
Ashla - F
Aspyn - F
Antwanett - F
Aundreia - F
Audella - F
Amari - Unisex
Arsha - Unisex
Aricella - F
Adan - M
Apasra - F
Alaysha - F
Anderson - M
Aurelius - M
Aerial - F
Averleigh - F
Aslean - F
Arniesha - F
Asyana - F
Annjane - F
Amabella - F
Austinjohn - M
Arloween - F
Alula - M
Anemone - F
Amorina - F
Anureet - F
Arric - M
Antonne - M
Alyre - M
Annaise - F

In [32]:

%%sql

SELECT COUNT(1)
FROM wearealego.name_gender;

 * postgresql://wearealego:***@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev
1 rows affected.

Out[32]:

count
100

In [33]:

%%sql
SELECT *
FROM wearealego.name_gender;

 * postgresql://wearealego:***@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev
100 rows affected.

Out[33]:

name	gender
Adaleigh	F
Amryn	Unisex
Apurva	Unisex
Aryion	M
Alixia	F
Alyssarose	F
Arvell	M
Aibel	M
Atiyyah	F
Adlie	F
Anyely	F
Aamoni	F
Ahman	M
Arlane	F
Armoney	F
Atzhiry	F
Antonette	F
Akeelah	F
Abdikadir	M
Arinze	M
Arshaun	M
Alexandro	M
Ayriauna	F
Aqib	M
Alleya	F
Aavah	F
Anesti	Unisex
Adalaide	F
Analena	F
Alaeyah	F
Albena	F
Aimi	F
Adwaith	M
Arkady	M
Astyn	Unisex
Adelee	F
Agata	F
Alegna	F
Altan	M
Ahnaleigh	F
Algie	Unisex
Ashanti	F
Aislyn	F
Adaleine	F
Anthnoy	M
Algernon	M
Aeryona	F
Adrinne	F
Addell	F
Avril	F
Ahni	F
Aimon	M
Adolpho	M
Ahuva	F
Aurielle	F
Aveana	F
Aliyia	F
Alesander	M
Adnrea	F
Anjae	F
Alvine	F
Adorah	F
Adlemi	F
Alesi	F
Alontae	M
Antonny	M
Adarah	F
Ayreanna	F
Antyon	M
Andia	F
Ashla	F
Aspyn	F
Antwanett	F
Aundreia	F
Audella	F
Amari	Unisex
Arsha	Unisex
Aricella	F
Adan	M
Apasra	F
Alaysha	F
Anderson	M
Aurelius	M
Aerial	F
Averleigh	F
Aslean	F
Arniesha	F
Asyana	F
Annjane	F
Amabella	F
Austinjohn	M
Arloween	F
Alula	M
Anemone	F
Amorina	F
Anureet	F
Arric	M
Antonne	M
Alyre	M
Annaise	F

In [34]:

%%sql

SELECT gender, COUNT(1) count
FROM wearealego.name_gender
GROUP BY gender;

 * postgresql://wearealego:***@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev
3 rows affected.

Out[34]:

gender	count
F	65
Unisex	7
M	28

'데이터 기초' 카테고리의 다른 글

AB테스트 (0)	2024.01.04
테스트 코드 구조 소개 (1)	2023.12.25
워드클라우드 이용 데이터 시각화 (0)	2023.10.27
셀레니엄 이용한 자동화 웹 스크래핑 (0)	2023.10.26

테스트 코드 구조 소개

데이터왕 2023. 12. 25. 11:27

2023. 12. 25. 11:27

테스트 코드 구조 분석(행맨 테스트 코드 이용)

test.py
# 필요한 모듈을 가져옵니다: 유닛 테스트를 위한 unittest 및 'app' 모듈(이름이 'hangman'으로 변경됨).
import unittest
import app as hangman

# Hangman 테스트 케이스를 위한 클래스를 정의하며, unittest.TestCase를 상속합니다.
class HangmanTestCase(unittest.TestCase):

    # 'checkCorrectAnswer' 함수에 대한 테스트 케이스입니다.
    def test_checkCorrectAnswer(self):
        # 특정 매개변수로 'checkCorrectAnswer' 함수를 호출합니다.(아래 app.py 파일에 있음)
        answer = hangman.checkCorrectAnswer("baon", "baboon")
        # 결과가 True인지 확인하여 정확성을 기대합니다.
        self.assertTrue(answer)

    # 'checkWrongAnswer' 함수에 대한 테스트 케이스입니다.
    def test_checkWrongAnswer(self):
        # 특정 매개변수로 'checkWrongAnswer' 함수를 호출합니다. (아래 app.py 파일에 있음)
        answer = hangman.checkWrongAnswer("zebrio", "zebra")
        # 결과가 True인지 확인하여 잘못된 답을 기대합니다.
        self.assertTrue(answer)

    # 'checkCorrectAnswer'에 대한 추가 테스트 케이스 1입니다.
    def test_1(self):
        # 특정 매개변수로 'checkCorrectAnswer' 함수를 호출합니다.
        answer = hangman.checkCorrectAnswer("bazn", "baboon")
        # 결과가 False인지 확인하여 잘못된 추측을 기대합니다.
        self.assertFalse(answer)

    # 'checkCorrectAnswer'에 대한 추가 테스트 케이스 2입니다.
    def test_2(self):
        # 빈 문자열과 공백을 매개변수로 'checkCorrectAnswer' 함수를 호출합니다.
        answer = hangman.checkCorrectAnswer("", " ")
        # 결과가 False인지 확인하여 빈 문자열이 올바른 추측이 아님을 기대합니다.
        self.assertFalse(answer)

    # 'checkCorrectAnswer'에 대한 추가 테스트 케이스 3입니다.
    def test_3(self):
        # 대문자를 사용하여 'checkCorrectAnswer' 함수를 호출합니다.
        answer = hangman.checkCorrectAnswer("ZEBRA", "zebra")
        # 결과가 False인지 확인하여 대소문자 구분 비교를 기대합니다.
        self.assertFalse(answer)

# 스크립트가 직접 실행되는지 확인하고 유닛 테스트를 실행합니다.
if __name__ == "__main__":
    unittest.main()
app.py
(중략)
# 플레이어가 이겼는지 확인
def checkCorrectAnswer(correctLetters, secretWord):
    # 모든 글자가 올바르게 추측되었는지 여부를 나타내는 변수
    foundAllLetters = True

    # 비밀 단어의 각 글자에 대해 반복
    for i in range(len(secretWord)):
        # 만약 비밀 단어의 현재 글자가 올바르게 추측된 글자에 포함되어 있지 않다면
        if secretWord[i] not in correctLetters:
            # foundAllLetters를 False로 설정하고 반복 중지
            foundAllLetters = False
            break

    # 모든 글자가 올바르게 추측되었는지 여부 반환
    return foundAllLetters

# 플레이어가 너무 많은 횟수로 추측하여 게임에 패배했는지 확인
def checkWrongAnswer(missedLetters, secretWord):
    # 만약 플레이어가 너무 많은 횟수로 추측하여 패배한 경우
    if len(missedLetters) == len(HANGMANPICS) - 1:
        # True 반환
        return True
    # 그 외의 경우 False 반환
    return False

'데이터 기초' 카테고리의 다른 글

AB테스트 (0)	2024.01.04
ETL 기초 실습 (0)	2023.12.31
워드클라우드 이용 데이터 시각화 (0)	2023.10.27
셀레니엄 이용한 자동화 웹 스크래핑 (0)	2023.10.26

워드클라우드 이용 데이터 시각화

데이터왕 2023. 10. 27. 17:47

2023. 10. 27. 17:47

4-5. 워드클라우드 만들기 - 해시코드 질문 키워드¶

bs4와 wordcloud를 이용해서 질문 키워드를 보여주는 시각화를 진행해봅시다.

Target: 해시코드 질문 제목의 키워드¶

지난 실습에서 해시코드(https://hashcode.co.kr) 질문태그를 활용해 Bar Plot을 그렸다면,
이번 실습에서는 질문 제목을 스크래핑한 후, 형태소 분석을 진행해서 워드클라우드를 그려봅시다.

In [1]:

# 다음 User-Agent를 추가해봅시다.

user_agent = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}

In [4]:

# Pagination이 되어있는 질문 리스트의 제목을 모두 가져와 리스트 questions에 저장해봅시다.
# https://hashcode.co.kr/?page={i}
# 과도한 요청을 방지하기 위해 0.5초마다 요청을 보내봅시다.

questions=[]

import requests
from bs4 import BeautifulSoup
import time

for i in range(1,6):
    res=requests.get(f"https://hashcode.co.kr/?page={i}",user_agent)
    soup=BeautifulSoup(res.text,"html.parser")
    
    parsed_datas=soup.find_all("li","question-list-item")
    
    for data in parsed_datas:
        questions.append(data.h4.text.strip())
    time.sleep(0.5)

In [5]:

questions[:10]

Out[5]:

['파이썬에서 동적 클래스와 정적 클래스의 차이점을 제대로 이해한지 궁금합니다.',
 'BI tool 과 Dashboard 솔루션의 차이',
 '틀린 부분 모르겠어요ㅠㅠ',
 'flask를 vscode에서 gunicorn을 활성화해서 실행시키고 싶은데 gunicorn을 활성화했는데도 wsgi  서버를 활용하지 않느다고 오류메세지가 뜨네요',
 'MSSQL 2008->2019 마이그레이션 후 게시판 정렬 문제',
 '묵시적 형변환',
 'y값이 입력이 안됩니다.',
 '이 방식으로 배포하는 게 맞나요?',
 '스택 자료 삭제 알고리즘 문제 관련 궁금한 점',
 '프로그램에 대하여']

In [6]:

# 텍스트 구름을 그리기 위해 필요한 라이브러리를 불러와봅시다.

# 시각화에 쓰이는 라이브러리
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 횟수를 기반으로 딕셔너리 생성
from collections import Counter

# 문장에서 명사를 추출하는 형태소 분석 라이브러리
from konlpy.tag import Hannanum

In [9]:

# Hannanum 객체를 생성한 후, .nouns()를 통해 명사를 추출합니다.
words=[]
hannanum=Hannanum()
for question in questions:
    #1번 반복할때 나온 명사들
    nouns=hannanum.nouns(question)
    #누적해서 나오는 명사들
    words+=nouns
print(len(words))

In [10]:

# counter를 이용해 각 단어의 개수를 세줍니다.

counter=Counter(words)
counter

Out[10]:

Counter({'파이썬에서': 1,
         '클래스': 4,
         '정적': 1,
         '차이점': 1,
         '이해': 3,
         '궁금': 4,
         '과': 1,
         '솔루션': 1,
         '차이': 1,
         '부분': 6,
         '모르겠어요ㅠㅠ': 1,
         '활성화해': 1,
         '실행': 4,
         '데': 4,
         '활성': 1,
         '서버': 1,
         '활용': 3,
         '않느': 1,
         '오류메세지': 1,
         '2008': 1,
         '2019': 1,
         '마이그레이션': 1,
         '후': 5,
         '게시판': 3,
         '정렬': 1,
         '문제': 25,
         '묵시적': 1,
         '형변환': 1,
         '값': 4,
         '입력': 4,
         '방식': 5,
         '배포': 1,
         '것': 4,
         '스택': 2,
         '자료': 1,
         '삭제': 2,
         '알고리즘': 1,
         '관련': 11,
         '점': 1,
         '프로그램': 7,
         '대하여': 1,
         '토큰': 1,
         '질문': 51,
         '속성': 1,
         '노마드코더': 1,
         '공부': 5,
         '세팅': 1,
         '프로그래머스': 6,
         '입문': 1,
         '파이썬': 42,
         '기본': 1,
         '정답': 1,
         '12': 1,
         '결과값': 1,
         '15': 1,
         '메모리': 2,
         '해제': 1,
         '관련해서': 1,
         '모듈': 4,
         '오류': 18,
         '코딩': 7,
         '연습문제': 1,
         '짝수': 3,
         '합': 5,
         '목표': 1,
         '달성': 1,
         '최고': 1,
         '프로그래밍': 2,
         '언어': 13,
         '선택': 1,
         '자바': 10,
         '자바스크립트,': 1,
         '로그': 2,
         '화': 1,
         '구현': 7,
         'C++': 2,
         '구구단': 1,
         '질문드': 11,
         '이용': 5,
         '라이브영상': 1,
         '출력': 9,
         '엑셀': 4,
         '단순': 1,
         '선행': 1,
         '프로세스': 2,
         '객체': 2,
         '후행': 1,
         '방법': 12,
         '아무것': 1,
         '신입사원': 1,
         'ㅠㅠ': 3,
         '설치파일': 1,
         '수': 16,
         'cv2': 1,
         '설치': 3,
         '해결': 5,
         '좌클': 1,
         '우클': 1,
         '클릭': 1,
         '법': 3,
         '환경': 2,
         '파': 6,
         '경': 2,
         '식': 6,
         'C#': 2,
         '인터페이스': 2,
         '상속': 1,
         '구별': 1,
         '[스프링부트]': 1,
         '컨트롤러': 1,
         '매핑': 1,
         '핸들러': 1,
         '포트번호': 1,
         '로': 2,
         '인바운드&아웃바운드': 1,
         '차': 1,
         '설정': 2,
         '보안상': 1,
         '안전': 1,
         '이미지': 4,
         '크롤링하': 1,
         '다운로드': 1,
         '때': 9,
         '유니티': 1,
         '리듬': 1,
         '제작': 2,
         '메트로놈': 1,
         '문': 6,
         '기초': 4,
         '질문가능': 1,
         '웹': 1,
         '스크래핑': 1,
         '독학': 1,
         '중': 8,
         '초렙': 1,
         "'_lib'": 1,
         '현업': 1,
         '개발': 2,
         '궁금증': 1,
         '저장': 11,
         '코드에디터': 1,
         '불편함': 1,
         '개': 2,
         '웹사이트': 3,
         '업로드': 1,
         '포인터': 1,
         '배열': 4,
         '마크': 1,
         '형식': 1,
         '벨로그': 1,
         '복사': 1,
         '과제중인데요': 1,
         '텍스트': 2,
         '파일': 6,
         '평균': 2,
         '단어': 2,
         '길': 1,
         '코딩테스트': 9,
         '응시': 2,
         '규정': 1,
         '진로': 1,
         '고민': 2,
         '런타': 2,
         '에러': 7,
         '해결방안': 1,
         '[파이썬]': 2,
         '페이지별': 1,
         '분리': 2,
         '관리': 1,
         '발생': 8,
         'ㅜ': 2,
         '코드': 15,
         "linear_model'에서": 1,
         '이름': 1,
         '행님덜~~네이버': 1,
         '플레이스리뷰': 1,
         '크롤링': 2,
         'S3)': 1,
         '파라미터': 1,
         '로컬': 1,
         '전달': 2,
         '배포서버': 1,
         '캐치': 1,
         '예외': 1,
         '딕셔너리': 3,
         '쿼': 1,
         '구축': 1,
         '예제': 2,
         '나': 1,
         '교육': 1,
         '사이트': 2,
         '모바일': 1,
         '(뉴비': 1,
         '진짜': 3,
         '아나콘다': 1,
         '주피터': 1,
         '노트북': 1,
         '이동': 1,
         '판다스': 4,
         '년월일': 1,
         '숫자들': 1,
         '소': 1,
         '숫자': 1,
         '깃': 1,
         '플로우': 1,
         '관련질문': 1,
         '결과': 3,
         '드': 2,
         '배치파': 1,
         '날짜': 2,
         '지정': 1,
         '풀이중': 1,
         '백준': 2,
         '문제(bfs)': 1,
         '함수': 3,
         '표': 1,
         '조건부': 1,
         '서식': 1,
         '색조': 1,
         '다중공선성': 1,
         '분': 2,
         'j2ee.': 1,
         'j2ee': 1,
         '에러메시지': 1,
         '못잡겠네요': 1,
         '5': 1,
         '의미': 2,
         '오버플로우': 1,
         '지': 2,
         '초보': 2,
         '경로': 1,
         '처음이': 1,
         '좀': 1,
         '공원': 1,
         '산책': 1,
         '원': 1,
         '시작': 1,
         '어려움': 1,
         '전역변수': 1,
         '안가서요': 1,
         '답변': 1,
         '입출력': 1,
         '0': 2,
         '10': 1,
         '어떤의미': 1,
         '고수님': 2,
         '3가지': 1,
         '쿠키': 1,
         '접근': 2,
         '한': 4,
         '확장': 1,
         '칼만필터': 1,
         '드립니다ㅠㅠ': 1,
         '군데': 2,
         '공부법': 1,
         '에러(ModuleNotFoundError': 1,
         '학습': 1,
         '구글코랩Google': 1,
         '객체생성': 1,
         '제출': 1,
         '저': 2,
         '문자열': 2,
         '쓰레기': 1,
         '자바스크립트': 5,
         '일주일': 1,
         '못풀면': 1,
         '연습': 2,
         '컨트롤': 1,
         '제트': 1,
         'ojdbc6': 1,
         '추가': 1,
         'c++질문': 1,
         '답안': 1,
         '인텔리제이에서': 1,
         'm1': 1,
         'centOS7': 1,
         '올리브영': 1,
         '동작': 1,
         '구간별': 1,
         '내': 2,
         '문의사항': 1,
         'scanf_s': 2,
         '하이퍼파라미터': 1,
         '정수': 1,
         '홀수': 2,
         '입력모드': 1,
         '일반모드': 1,
         '전환': 1,
         '프로젝트': 1,
         '구조체': 1,
         '사용': 6,
         '다항식': 2,
         '덧셈': 3,
         '사진파일': 1,
         '코으': 1,
         '매개변수화': 2,
         '메서드': 1,
         '작성': 2,
         '별그리': 1,
         '마름모': 1,
         '컴퓨터': 1,
         '시간': 3,
         '기준': 1,
         '자동': 2,
         '문구': 2,
         '타이핑': 1,
         '작동': 2,
         '4종류': 1,
         '강아지': 1,
         '분류': 2,
         '다람쥐': 2,
         '청설모': 1,
         '마지막': 1,
         '가변': 2,
         '자': 2,
         '평균값': 1,
         '알려주시ㅣ': 1,
         '한번': 1,
         'ㅠㅠㅠ': 1,
         '를': 1,
         'get_average_score': 1,
         '구현하기': 1,
         '데이터프레': 1,
         '헤더파일': 1,
         'int&': 1,
         '오브젝트': 1,
         '쪽': 1,
         '왼쪽': 1,
         '판별': 1,
         '휴대폰': 1,
         '동영상': 2,
         '재생': 2,
         '전원': 1,
         '일시': 1,
         '중지': 1,
         '반복분': 1,
         '깔끔': 1,
         '페이징': 1,
         '코드좀': 2,
         '으': 1,
         '막대그래프': 1,
         '선그래프': 1,
         '그리기': 1,
         '연결': 2,
         '리스트': 1,
         '공백삭제': 1,
         '관련질문드': 1,
         '여러개': 1,
         '3*3': 1,
         '틱텍토': 1,
         '게임': 1,
         '구성': 1,
         '시': 2,
         '엔진': 1,
         '철학': 1,
         '메소드': 1,
         '조언': 1,
         '객체선언': 1,
         '주석': 2,
         '유니코드오류': 1,
         '모르겠어': 1,
         '#define': 1,
         '상수': 1,
         '선언떄': 1,
         '우분투': 1,
         '가상머신': 1,
         '멀티스레딩': 1,
         '읽기': 1,
         '머쓱': 1,
         '스탬프': 1,
         '답보기요': 1,
         '무관한지': 1,
         '25206': 1,
         '뭐': 2,
         '확인': 1,
         '고수분': 1,
         '제너레이터화': 1,
         '리액트': 1,
         '쿼리': 2,
         'js통해서': 1,
         '아두이노': 1,
         '통신관련': 1,
         '정규표현식': 1,
         '패턴': 1,
         '추출': 1,
         "'MODULE_NOT_FOUND'": 1,
         '데이터베이스': 1,
         '다른방법없을까요': 1,
         '첫번': 1,
         '폰켓몬': 1,
         '멀티프로세싱': 1,
         '실행시': 1,
         '수십개': 1,
         '소수점': 2,
         '이용해서': 1,
         '앱': 1,
         '(생초보)': 1,
         '매개변수': 1,
         '개수': 1,
         '로지스틱': 1,
         '회귀': 1,
         '2단계': 1,
         '구명보트': 1,
         '구분': 1,
         '다음': 1,
         '변형': 1,
         '변환': 2,
         '과정': 1,
         '1': 3,
         '이': 1,
         '해석': 1,
         '생성': 3,
         '재정의': 1,
         '뭔지좀': 1,
         '출력하기': 1,
         'spy++,': 1,
         '특정': 3,
         '[python질문]': 1,
         '처음보는데': 1,
         '웹크롤링': 2,
         '타입에러': 1,
         '있을까요ㅠㅠ': 1,
         'level0': 1,
         '어디': 1,
         '한달': 1,
         '1byte': 1,
         '스킬': 1,
         '체크': 1,
         '테스트': 1,
         '2': 4,
         '무한루프': 1,
         '문의드': 1,
         '제목': 1,
         '세션': 1,
         '스토리지': 1,
         '발': 1,
         '저장법': 1,
         '단점': 1,
         '뭘까요': 1,
         'BeautifulSoup4': 1,
         '분수': 1,
         '맥': 1,
         '터미널': 2,
         '파이썬3': 1,
         '2차원배열': 1,
         '입력하기': 1,
         '마우스': 1,
         '이벤트': 1,
         '처리': 1,
         '31': 1,
         '4': 2,
         '||': 1,
         '둘다': 1,
         '같은의미아닌가요': 1,
         '질문이요': 2,
         '질문이욧': 1,
         '의': 1,
         '재귀함수': 1,
         'c++': 1,
         '동적할당': 1,
         '생성자': 1,
         '스프링': 1,
         '배치': 2,
         '구현부분': 1,
         '하기': 1,
         '[python3]': 1,
         '문제해결': 1,
         '동적배열': 1,
         '선언': 2,
         '이유': 2,
         '디자이너': 1,
         '사용해서': 1,
         '프린터': 2,
         '출력시': 2,
         '메': 1,
         '윈도우': 1,
         '창': 1,
         '전체': 1,
         'Q&A': 1,
         '작성글': 1,
         '보기': 1,
         '서블릿': 1,
         '기초적': 1,
         '질문할께요ㅠ': 1,
         '[코틀린]': 1,
         '사진': 2,
         '거기': 1,
         '안나와요': 1,
         '관련하': 1,
         '두': 1,
         '데이터': 4,
         '매칭하려': 1,
         '영상': 1,
         '프레임별': 1,
         '라즈베리파이': 1,
         '캡쳐': 1,
         '넘버링': 1,
         '동기적': 1,
         '문제점': 2,
         '통신': 1,
         '자료구조': 1,
         '함수들': 1,
         '활용법': 1,
         '儆儆儆儆儆': 1,
         '아코디언': 1,
         '갤러리': 1,
         '좌표': 1,
         '테이블': 1,
         'read_excel()': 1,
         '마방진': 1,
         '장고(django)': 1,
         '프레임웍': 1,
         '타이머': 1,
         '버튼': 1,
         '엑셀파': 1,
         '부탁드': 1,
         '카테고리': 2,
         '직전': 1,
         '직후': 1,
         '구매': 1,
         '예측': 1,
         '[판다스]': 1,
         '원천': 1,
         '프레임': 1,
         '안': 1,
         '문자': 2,
         '프레': 1,
         '파이선': 2,
         '체크박스': 1,
         '&': 1,
         '버블정렬구현': 1,
         '최단경로': 1,
         '이진탐색트': 1,
         '중복': 1,
         '컬럼': 1,
         '과제요청': 1,
         '왕초보': 1,
         '인덱싱': 1,
         '이거': 1,
         '컴파': 1,
         '딜레': 1,
         '儆儆이러한': 1,
         '뭔가요': 1,
         '리눅스': 1,
         '아이텀2': 1,
         '등록': 1,
         '6': 2,
         '랜덤': 1,
         '6사이': 1,
         '3': 1,
         '이럴땐': 1,
         '설치오류': 1})

In [12]:

# WordCloud를 이용해 텍스트 구름을 만들어봅시다.
from wordcloud import WordCloud
#한국어가 지원되는 폰트를 font_path='' 안에 넣으면 나옴
wordcloud=WordCloud(
    font_path='/Users/weare/글꼴/HakgyoansimWoojuR.ttf', 
    background_color='white',
    width=1000, 
    height=1000
)

img=wordcloud.generate_from_frequencies(counter)

plt.imshow(img)

Out[12]:

<matplotlib.image.AxesImage at 0x24b98d6e8c0>

'데이터 기초' 카테고리의 다른 글

AB테스트 (0)	2024.01.04
ETL 기초 실습 (0)	2023.12.31
테스트 코드 구조 소개 (1)	2023.12.25
셀레니엄 이용한 자동화 웹 스크래핑 (0)	2023.10.26

셀레니엄 이용한 자동화 웹 스크래핑

데이터왕 2023. 10. 26. 23:15

2023. 10. 26. 23:15

3-2. 브라우저 자동화하기, Selenium¶

Selenium을 활용해 브라우저를 조작해봅시다.

Selenium 라이브러리¶

selenium은 Python을 이용해서 웹 브라우저를 조작할 수 있는 자동화 프레임워크입니다.

이를 사용하기 위해서는 먼저 selenium 프레임워크를 설치해야합니다.
pip install을 통해서 이를 간단하게 설치할 수 있습니다.

Tip: %를 이용해서 노트북(.ipynb) 환경에서 터미널 코드를 실행할 수 있습니다.

In [1]:

%pip install selenium

Requirement already satisfied: selenium in e:\anaconda\lib\site-packages (4.12.0)
Requirement already satisfied: urllib3[socks]<3,>=1.26 in e:\anaconda\lib\site-packages (from selenium) (1.26.14)
Requirement already satisfied: trio-websocket~=0.9 in e:\anaconda\lib\site-packages (from selenium) (0.10.3)
Requirement already satisfied: certifi>=2021.10.8 in e:\anaconda\lib\site-packages (from selenium) (2022.12.7)
Requirement already satisfied: trio~=0.17 in e:\anaconda\lib\site-packages (from selenium) (0.22.2)
Requirement already satisfied: exceptiongroup>=1.0.0rc9 in e:\anaconda\lib\site-packages (from trio~=0.17->selenium) (1.1.3)
Requirement already satisfied: attrs>=20.1.0 in e:\anaconda\lib\site-packages (from trio~=0.17->selenium) (22.1.0)
Requirement already satisfied: cffi>=1.14 in e:\anaconda\lib\site-packages (from trio~=0.17->selenium) (1.15.1)
Requirement already satisfied: sniffio in e:\anaconda\lib\site-packages (from trio~=0.17->selenium) (1.2.0)
Requirement already satisfied: sortedcontainers in e:\anaconda\lib\site-packages (from trio~=0.17->selenium) (2.4.0)
Requirement already satisfied: idna in e:\anaconda\lib\site-packages (from trio~=0.17->selenium) (3.4)
Requirement already satisfied: outcome in e:\anaconda\lib\site-packages (from trio~=0.17->selenium) (1.2.0)
Requirement already satisfied: wsproto>=0.14 in e:\anaconda\lib\site-packages (from trio-websocket~=0.9->selenium) (1.2.0)
Requirement already satisfied: PySocks!=1.5.7,<2.0,>=1.5.6 in e:\anaconda\lib\site-packages (from urllib3[socks]<3,>=1.26->selenium) (1.7.1)
Requirement already satisfied: pycparser in e:\anaconda\lib\site-packages (from cffi>=1.14->trio~=0.17->selenium) (2.21)
Requirement already satisfied: h11<1,>=0.9.0 in e:\anaconda\lib\site-packages (from wsproto>=0.14->trio-websocket~=0.9->selenium) (0.14.0)
Note: you may need to restart the kernel to use updated packages.

설치를 다 진행했다면, 이제 Chrome Driver를 설치하러 가봅시다.

Web Driver¶

웹 브라우저와 연동을 위해서는 WebDriver가 필요합니다.

WebDriver는 웹 브라우저를 제어할 수 있는 자동화 프레임워크입니다.
이 실습에서는 Chrome을 기준으로 설명하겠습니다.

pip insall을 통해 webdriver를 관리하는 라이브러리 webdriver-manager를 설치합니다.

In [2]:

%pip install webdriver-manager

Collecting webdriver-manager
  Downloading webdriver_manager-4.0.1-py2.py3-none-any.whl (27 kB)
Requirement already satisfied: packaging in e:\anaconda\lib\site-packages (from webdriver-manager) (22.0)
Requirement already satisfied: requests in e:\anaconda\lib\site-packages (from webdriver-manager) (2.28.1)
Collecting python-dotenv
  Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Requirement already satisfied: certifi>=2017.4.17 in e:\anaconda\lib\site-packages (from requests->webdriver-manager) (2022.12.7)
Requirement already satisfied: urllib3<1.27,>=1.21.1 in e:\anaconda\lib\site-packages (from requests->webdriver-manager) (1.26.14)
Requirement already satisfied: idna<4,>=2.5 in e:\anaconda\lib\site-packages (from requests->webdriver-manager) (3.4)
Requirement already satisfied: charset-normalizer<3,>=2 in e:\anaconda\lib\site-packages (from requests->webdriver-manager) (2.0.4)
Installing collected packages: python-dotenv, webdriver-manager
Successfully installed python-dotenv-1.0.0 webdriver-manager-4.0.1
Note: you may need to restart the kernel to use updated packages.

설치를 완료했다면 이제 Webdriver를 사용할 수 있습니다.

컴퓨터에 Chrome이 깔려있어야 이후 실습을 진행할 수 있습니다.
Chrome 설치하기

Selenium 시작하기¶

Selenium을 사용하기 위해 우선 Selenium을 불러와봅시다.

In [4]:

# selenium으로부터 webdriver 모듈을 불러옵니다.

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

불러온 모듈 webdriver에서 Chrome() 객체를 생성합니다.

In [5]:

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

갑자기 크롬이 실행된다구요? 정상입니다. 저희는 위 명령을 통해 웹 브라우저를 실행하고 파이썬과 연동할 수 있습니다.

여기서 그치지 않고, 저희는 이제 요청을 보내보도록 하겠습니다.
.get(url)을 활용해 요청을 보낼 수 있습니다.

In [6]:

# http://www.example.com 으로 요청을 보내봅시다.
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get("http://www.example.com")

요청이 잘 보내지시나요? :)
응답을 받은 후, page_source 속성을 통해 Response의 HTML 문서를 확인할 수 있습니다.

In [7]:

# page_source 속성을 확인해봅시다.

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get("http://www.example.com")
print(driver.page_source)

<html><head>
    <title>Example Domain</title>

    <meta charset="utf-8">
    <meta http-equiv="Content-type" content="text/html; charset=utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>


</body></html>

그런데, 프로그램들을 실행하다보면 Chrome 창이 계속 켜져있게 됩니다. 이는 저희가 해당 창을 끄라고 명령을 내린 적이 없기 때문이죠!

with-as 구문을 통해 주어진 명령이 끝나면 driver를 종료하도록 설정할 수 있습니다.

In [8]:

# with-as를 사용해서 위 코드를 다시 적어봅시다.
# 목적 끝내면 자동으로 꺼짐
with webdriver.Chrome(service=Service(ChromeDriverManager().install())) as driver:
    driver.get("http://www.example.com")
    print(driver.page_source)

<html><head>
    <title>Example Domain</title>

    <meta charset="utf-8">
    <meta http-equiv="Content-type" content="text/html; charset=utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>


</body></html>

주어진 명령을 실행하고 잘 종료되는 것을 확인할 수 있습니다.

Driver에서 특정 요소 추출하기¶

selenium은 받아온 응답으로부터 특정 요소를 추출할 수도 있습니다.
이미 브라우저를 활용하기 때문이죠!

응답을 가지고 있는 driver/요소에 대해서 다음과 같은 메서드를 적용할 수 있습니다.

요소 하나 찾기

.find_element(by, target)
- by : 대상을 찾는 기준 : ID, TAG_NAME, CLASS_NAME, ...
- target : 대상의 속성

요소 여러개 찾기

.find_elements(by, target)
- by : 대상을 찾는 기준 : ID, TAG_NAME, CLASS_NAME, ...
- target : 대상의 속성

In [9]:

#By를 import 함

from selenium.webdriver.common.by import By

In [10]:

# p 태그에 해당하는 요소 하나를 찾아봅시다.
with webdriver.Chrome(service=Service(ChromeDriverManager().install())) as driver:
    driver.get("http://www.example.com")
    print(driver.find_element(By.TAG_NAME,"p"))

<selenium.webdriver.remote.webelement.WebElement (session="cea4f046bf1e68cfe0e42c7d99145c00", element="995396EAD7FB191B9B96E6047BAC85ED_element_2")>

In [13]:

# p 태그에 해당하는 요소 여러개를 찾아봅시다.
with webdriver.Chrome(service=Service(ChromeDriverManager().install())) as driver:
    driver.get("http://www.example.com")
    for element in driver.find_elements(By.TAG_NAME,"p"):
        print("Text:", element.text)

Text: This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.
Text: More information...

In [ ]:

'데이터 기초' 카테고리의 다른 글

AB테스트 (0)	2024.01.04
ETL 기초 실습 (0)	2023.12.31
테스트 코드 구조 소개 (1)	2023.12.25
워드클라우드 이용 데이터 시각화 (0)	2023.10.27

PREV 이전 1 NEXT 다음

세상의 모든 데이터

데이터 기초

AB테스트

'데이터 기초' 카테고리의 다른 글

ETL 기초 실습

ETL 함수를 하나씩 정의¶

이제 Extract부터 함수를 하나씩 실행¶

'데이터 기초' 카테고리의 다른 글

테스트 코드 구조 소개

'데이터 기초' 카테고리의 다른 글

워드클라우드 이용 데이터 시각화

4-5. 워드클라우드 만들기 - 해시코드 질문 키워드¶

Target: 해시코드 질문 제목의 키워드¶

'데이터 기초' 카테고리의 다른 글

셀레니엄 이용한 자동화 웹 스크래핑

3-2. 브라우저 자동화하기, Selenium¶

Selenium 라이브러리¶

Web Driver¶

Selenium 시작하기¶

Driver에서 특정 요소 추출하기¶

'데이터 기초' 카테고리의 다른 글

+ Recent posts

티스토리툴바