본 캠프 TIL

1월 6일 TIL

meoca1257 2025. 1. 6. 20:11

 

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

10분 판다스 ( = 30분 판다스 너무 오래함)

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

* np.random.randn(6,4) : 6행,4열 임의의 값(평균0, 표준편차 1)을 생성

 

*** 평균, 표준편차 등 간단히 쓰이는 계산식의 암기가 필요하다 생각 
지금의 나 : 머릿속에 있는 이미지 중 하나를 생각해 맞는지 검증 후 도출

미래의 나 : 표준편차 라는 키워드를 생각하자 마자 이해된 계산식 도출

 

df2 = pd.DaraFrame ({ 'a' : 1. ,

                                       'b' : pd.Timestamp('20130102'), 

                                       'c' : pd.Series(1, index=list(range(4)), dtype='float32'),

                                       'd' : np.array([3] * 4, dtype='int32'),

                                       'e' : pd.Categorical(['test','train','test','train]),

                                        'f' : 'foo' })

* 1. 이라 쓰면 1.0이 도출

** Timestamp + '연월일' 쓰면 datatime 도출

 

*** np.array([3] * 4)는 3을 4번 반복하여 NumPy 배열을 만든다는 뜻 ( = array([3, 3, 3, 3]) )

***+ 

"NumPy 배열을 만든다"는 말은 NumPy 라이브러리를 사용하여 *배열 객체를 생성한다는 의미

*배열 : 리스트와 비슷한 형태로 여러 값을 저장할 수 있는 자료구조 그러나 NumPy 배열은 일반 Python 리스트보다 더 많은 기능과 효율성을 제공 ( 고속계산, 동일한 데이터 타입, 다차원 배열 등 )

요약:

  • 2차원 배열은 행렬처럼 다룰 수 있고, 3차원 배열은 더 복잡한 데이터를 처리할 때 사용됩니다.
  • NumPy에서는 다차원 배열에 대해 벡터화된 연산을 통해 효율적인 계산이 가능합니다.

행렬 곱셈 계산 식

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

 

아티클 스터디

 ➕ 오늘의 아티클 (주제)


주제 :

[데이터분석] 데이터 분석가는 어떤 일을 하나요?

 


 

  • 요약

데이터 분석가 필요 업무 역량

  • 주요 포인트

데이터 분석가 필요 업무 역량

1. 수학(Maths) & 통계학(Statistics)

기초 통계학 이해 단, 머신러닝 기술을 사용한다면 미적분, 벡터 등에 대한 지식 필수

 

2. 비즈니스(Business)/도메인(Domain) 전문지식(Expertise)

분석, 기술 및 비즈니스 목표들을 통합하여 수집된 데이터가 회사의 목표를 달성하는 데 사용되도록 하는 역할을 수행

데이터에 대한 지식과 통계적 지식이 필요

해당 통계에 대한 수치가 어떤 의미를 가지는지 이해

 

3. 도메인에 대한 이해

서비스의 흐름 파악

 

4. 문제 해결

 

5. 의사 소통(중요)

이해하기 쉬운 용어를 사용하여 결과를 공유

 

6. 의미있는 결론 도출

지표(Metric)를 쪼개서 보는 것이 중요

 

 

 

  • 핵심 개념

 

  • 용어 정리: BM, KPI, YoY, YTD, A/B test, CTR, OMTM, 허영지표

*BM(Business Model)

*KPI(Key Performance Indicator: 핵심 성과 지표

*YoY(Year on Year : 전년 동기 대비 증감률)
예. 작년의 동일 기간(2020년 12월)과 올해의 동일 기간(2021년 12월)을 비교
*YTD(Year To Date : 연초 대비 증감률)
예.11월 기준, 올해 현재까지의 누적값(2021년 1월~11월)과 올해 현재와 같은 전년의 누적값(2020년 1월~11월) 비교
*A/B 테스트 : 두 개의 변형 A와 B를 사용하는 종합 대조 실험
*CTR(Click-Through Rate : 클릭률 = 클릭 수/노출 수, 광고가 클릭된 횟수를 광고가 게재된 횟수로 나눈 값)

*OMTM(One Metric That Matters) : 서비스의 성장을 위해 지금 우리가 꼭 집중해야 하는 지표 (모든 지표가 모든 시기에 같은 중요도를 가지지 않기 때문에 지표 간 우선순위를 정합니다.)
*허영 지표(Vanity Metric) : 보기에는 좋지만, 실제 중요한 숫자들과 상관이 없는 지표

 

 

 ➕실무 적용 사례


1. 인사팀의 데이터 분석가 실무 사례

  • 목표: 인사팀에서 직원의 이직률을 예측하고 인재를 유지하기 위한 전략을 제시.
  • 주요 활동:
    • 이직 예측 모델링: 직원들의 근속 기간, 근무 부서, 직급, 급여 등 다양한 데이터를 분석하여 이직 가능성이 높은 직원을 예측.
    • 성과 분석: 직원들의 업무 성과 데이터를 기반으로 효율적인 성과 평가 지표를 설정하고, 성과에 영향을 미치는 요인을 파악.
    • 직원 만족도 분석: 설문조사 데이터나 피드백을 분석하여 조직 내 문제점을 진단하고, 개선 방안을 제시.

2. 고객센터의 데이터 분석가 실무 사례

  • 목표: 고객센터의 효율성을 높이고, 고객 만족도를 향상시키기 위한 전략을 수립.
  • 주요 활동:
    • 콜 분석: 고객 상담 데이터를 분석하여 자주 발생하는 문의 유형을 파악하고, 문제 해결 시간을 단축시키기 위한 방안을 제시.
    • 응답 시간 분석: 고객 대응 시간을 추적하여 병목 현상을 찾아내고, 직원 수나 프로세스를 최적화.
    • 고객 만족도 예측: 설문조사나 후기 데이터를 분석하여 고객이 불만을 가질 가능성이 높은 부분을 선제적으로 대응.

3. 철강 산업 데이터 분석가 실무 사례

  • 목표: 철강 생산 효율을 높이고, 원가를 절감하며, 품질을 유지하기 위한 데이터 분석.
  • 주요 활동:
    • 생산 효율성 분석: 생산 데이터를 기반으로 생산 라인의 병목 현상이나 원자재 낭비를 파악하고 최적화 방법을 제시.
    • 품질 관리 분석: 제품의 품질 데이터를 분석하여 불량률을 예측하고, 불량을 줄이기 위한 개선 방안을 제시.
    • 수요 예측: 시장 데이터를 분석하여 철강 제품의 수요를 예측하고, 생산 계획을 수립하여 공급 과잉 또는 부족을 방지.