본문 바로가기

데이터

그로스해킹, AARRR 프레임워크 참고 : 그로스해킹 - 양승화 A : Acquisition A : Activation R : Retention R : Revenue R : Refferal 엑셀러레이터 500 startups의 창업자 데이브 맥클루어가 주장 개요 AARRR이란, 고객 여정의 단계로 그로스 해킹은 핵심 지표를 찾고, 그 지표를 성장시키는 방법을 찾는 활동 활성화와 유지율을 가장 우선적으로 개선 Acquisition 고객 유치 고객 유치 과정의 핵심은 고객 유치에 기여한 채널의 성과를 판단할 수 있는 모델을 만드는 것 일반적으로 자발적으로 찾아온 고객(Organic)과 마케팅으로 찾아온 고객(Paid)으로 분류하나, GA등에서는 미식별 고객들도 Organic으로 표기한다. 따라서, 가능한 한 많은 트래픽을 식별해서 미식별 트.. 더보기
[크롤링] 크롤링 후 엑셀로 저장하기(페이지네이션 크롤링, BeautifulSoup) 부산 지역에서 개최되는 모든 축제의 기간 대해 분석하고자 한다. 데이터는 많지 않지만 일일히 수기로 입력하기 번거롭기에 크롤링을 통해 축제 이름과 개최 기간을 수집하고, 그 기간을 datetime 객체로 변경해 진행일수를 계산하여 액셀로 저장하였다. 과정은 크게 3단계로 이루어진다. url 요청보내서 데이터 받아오기 Parsing해서 필요한 데이터 추출하기 Pandas로 엑셀 출력하기 크롤링하고자 하는 페이지는 다음과 같다. https://www.visitbusan.net/schedule/list.do?boardId=BBS_0000009&menuCd=DOM_000000204012000000&startPage=1&month=0 위 페이지에서 밑줄그은 축제 이름, 기간에 해당하는 부분을 수집한다. 1. ur.. 더보기
[크롤링]Selenium chromedriver 불러오기 오류 해결 chromedriver='./chromedriver' driver = webdriver.Chrome(chromedriver) chromedriver 설치 후 path를 지정한 후 실행하니 아래 오류가 발생하였고, 확장자를 exe, exec로 붙여도 같은 오류 발생, 절대 경로로 설정해도 같은 오류가 발생함. AttributeError: 'str' object has no attribute 'capabilities' type이 string으로 되어 발생하는 오류 AttributeError: 'str' object has no attribute 'capabilities' 해결 webdriver_manager 모듈 설치 후 코드셀 내에서 install하여 해결 from webdriver_manager.chro.. 더보기
[빅분기]빅데이터분석기사 실기 작업형 3유형 코드, 내용 정리 작업형 3유형 평균 추출 sample_array.mean() import numpy as np np.mean(sample_array) 알아야하는 파이썬 내장 함수 round(숫자, 자릿수) : 소수점을 포함하는 숫자를 자릿수만큼까지 표현하고 그 이후는 반올림 math.floor(숫자) : 소수점 이하는 버림 (import math로 모듈 import 후 사용) 가설검정 평균의 차이를 검정 → T-test 분산의 차이를 검정 → F-test 관측도수(이론적 비율과 실제 비율의 차이) 검정 → 카이제곱 검정(적합도 검정) 두 범주형 변수가 서로 영향이 있는 지 검정 → 카이제곱 검정(독립성 검정) 라이브러리 import import scipy.stats as stats 단일표본 T-test 한 표본집단의 평.. 더보기
[파이썬] 클래스 사용하기 절차 지향 vs 객체 지향 객체 지향 프로그래밍(OOP)의 장점 : 코드의 재사용, 코드 중복 방지, 유지보수의 편의성, 대형 프로젝트 시 활용성이 좋음 기존 방식(함수 중심) : 규모가 큰 프로젝트의 경우 → 데이터가 방대, 복잡해져 유지 보수가 어려워짐 클래스 중심으로 진화 → 데이터 중심 → 객체로써 관리 절차지향 vs 객체지향 어떤 것을 선택해야 하는가? 간단한 프로그램(크롤링 등) → 절차 지향 배포 목적, 지속적인 프로그램 → 객체 지향 일반적인 코딩 - 일반적인 코딩으로 데이터를 저장하는 경우 아래와 같다. # 차량 1 car_company_1 = 'Ferrari' car_datail_1 = [ {'color': 'White'}, {'housepower': 400}, {'price': 800.. 더보기
sklearn classification_report를 이용한 모델 검증 Classification Report sklearn에서는 분류 모델의 검증을 위한 classificrion_report api를 제공한다. text로 된 classification metrics에 대한 기본적인 리포트를 만들어 주며 다음과 같이 사용한다. sklearn.metrics.classification_report(y_true, y_pred, *, labels=None, target_names=None, sample_weight=None, digits=2, output_dict=False, zero_division='warn') 파라미터 y_true : 1차원 배열, 레이블 배열, 희소행렬 레이블의 실제 값을 입력 y_pred : 1차원 배열, 레이블 배열, 희소행렬 classifier가 예측한.. 더보기
[머신러닝] MultiLabel Classification을 이용한 속성 분류 모델 속성분류 모델 개요 인풋 값으로 텍스트를 받아, 총 6개의 속성(’가격’, ‘제형’, ‘색상’, ‘향’, ‘디자인’, ‘사용감’) 중 어떤 속성들에 해당하는 지를 예측하는 모델을 생성하고자 함 Multiclass classification이면서 동시에, y값으로 1개~6개를 반환하기에 Multilabel classification 문제임 X, Y 형태는 다음과 같음 데이터 전처리 X, feature feature EDA print('feature 평균 길이 :', np.mean(df['feature'].str.len())) print('feature 최대 길이 :', max(df['feature'].str.len())) print('feature 최소 길이 :', min(df['feature'].str... 더보기
[SQL 기초] 문자열 합치기 문자열 합치기 SELECT first_name || last_name FROM customer; # 공백 넣기 SELECT first_name || ' ' || last_name AS full_name FROM customer; 이메일만들기 SELECT LOWER(LEFT(first_name,1)) || LOWER(last_name) ||'@gmail.com' FROM customer; LEFT함수 → 문자열의 왼쪽에서부터 n개 추출 더보기