분류 전체보기
-
판다스가 너무 느리다면? Polars!학습/Python 2024. 5. 7. 00:56
대용량 데이터에서는 사용 불가능한 Pandas분석가가 과제를 수행하면서 이미 집계된 데이터를 분석하는 경우가 많지만경우에 따라서는 전혀 가공되지 않은 날것의 데이터를 가공하는 경우도 종종 발생한다.요즘은 워낙 로컬 머신의 성능도 좋아지기도 했고특히 개발 환경이 클라우드에 세팅되어 있는 분석가라면 사용중인 머신의 성능을 업그레이드 하는 방식을 통해 어느정도 수준의 큰 데이터는 쉽게 처리가 가능하다.그러나 수 백 억 row 이상되는 정말 대용량의 데이터를 분석하는 경우에는 위의 방법을 적용해봐도 한계를 마주치게 되고 pandas의 read_* 함수 따위는 리소스 부족으로 MemoryError가 발생하며 실행 자체가 되지 않는다... 메모리에 이 데이터를 올릴 수 없다는 얘기..겨우겨우 데이터를 메모리에 올렸..
-
FFT를 활용한 시계열 데이터 노이즈 처리 in Python학습/Python 2023. 10. 27. 04:26
개요 이번에 수행한 데이터 분석 과제에서 Iba 센싱데이터를 전처리하는 모듈을 만들었다. 분석에 사용된 센싱데이터는 수집주기가 0.02초로 매우 짧음에도 현재(t)와 직전(t-1) 데이터의 수치에 약간의 차이가 존재했다. (정상 데이터 범위의 5%이내로 차이 발생) 이는 노후 센서로 인한 측정 오차 등의 여러 외인에 의한 변동으로 파악되었다. 해당 변동은 현장에서 컨트롤 불가능하며, 최종 분석 결과에 좋지 않은 영향을 줄 가능성이 있다고 판단하였다. 따라서 본 과제에서는 변동을 제외처리 하는 방향으로 전처리 작업을 수행하였다. 이전에 수행했던 과제에서는 센싱데이터 노이즈를 제거할 때 이동평균을 사용했지만 이번 분석과제에서는 다음과 같은 단점으로 이동평균을 사용하지 않았다. 이동평균 Moving Avera..
-
아이폰15pro 사전예약 후기(1) - 구매이유리뷰/FLEX 2023. 10. 11. 01:35
아이폰15pro 구매 이유 # 살면서 안드로이드폰 외에는 사용해 본 적도 없던 나.. 애플이라고는 그저 주식 몇 주만 가지고 있었을 뿐이었던 나.. 2년 전부터 아이패드도 사고 맥북프로에, 맥북에어까지 구매하고나니 애플 생태계 구축의 핵심인 아이폰이 없다는 사실에 아쉬운 마음이 남아있었더랬다.... 여기서 아이폰으로 사진 샥 찍고 아이클라우드로 올려서 아이폰-맥북-아이패드 어디서든 자유자재로 확인한다? 캬~ 아이패드랑 맥북에서 작업한 내용이 자동으로 연동되서 아이폰에서 바로바로 확인할 수 있다? 키야~~ 생각만 해도 편리하다 편리해! iCloud 활용을 통한 연동성/연속성 극대화 # 게다가 지금 사용하고 있는 핸드폰인 갤럭시S21울트라는 무게만 자그마치 227g라서 손에 들고 유튜브 좀 보고 있으면 팔목..
-
Google Professional Cloud Architect 취득 후기생각 2023. 8. 26. 02:29
후기최근 개인적으로 Cloud에 대해 관심도 많아졌고, 업무에 GCP를 활용할 일이 생기면서 공부를 할 필요성이 생겼다.그래도 단순히 공부만 하기에는 재미가 없고.. 그래도 자격증이라도 하나 따면 좋지 않을까? 싶어서 약 1개월 정도 퇴근하고 틈틈이 Professional Cloud Architect 취득을 목표로 학습했다. 결과는 최종합격이긴 하지만.. 사실 내가 진짜 Professional 수준이라고는 생각하지 않는다.자격증 취득 전과 후를 비교하자면.. 그저 GCP에 대한 지식이 좀 생기고, 다양한 사례 연구를 통해 적합한 대응방안을 알게 되었다는 점 정도가 차이점이지 싶다. 이런 지식이 생겼다고 해서 내가 직접 아키텍트를 설계할 일은 없을 것 같고.. 그저 관련 부서와 업무적으로 의사소통 할 때 ..
-
Warning 없이 Pandas Dataframe의 데이터 조작하기 - replace학습/Python 2023. 1. 12. 17:23
오늘 태블로 대시보드 용도로 데이터마트 전처리 작업을 하고 있었다. Python으로 몇 가지 레코드를 수정하는 도중에 'SettingWithCopyWarning' 경고가 발생하여 이를 간단한 방법으로 처리했다. 해당 데이터 전처리는 Dataframe에서의 String 값을 변경하고자 하는 값으로 치환하는 작업이었고, filtered dataframe의 정보를 수정하면서 원본dataframe의 값이 변경되었음을 알려주는 경고였다. Python에서 데이터 분석을 하는경우 원본 Dataframe을 filtering의 결과인 파생 Dataframe을 다루는 경우가 정말 많은데, 크게 신경안쓰고 작업하다보면 해당 경고를 자주 접하게 된다. 평소에는 크게 신경쓰지 않고 대충 넘겨버리거나 .copy로 경고를 처리하곤..
-
23년, 독서하기 좋은 해 - 데이터 분석가의 책은?생각 2023. 1. 5. 00:58
학습이라는 늪에서 헤엄치기인생은 배움의 연속이라고 하지만 하필 더욱 공부가 많이 필요한 데이터분석가라는 직업 덕분에 나의 미래는 공부와 뗄레야 뗄 수 없어 보인다. 좀 편할 수가 없네... 나의 지난 공부 경험을 나열해보면..초등학교 6년, 중학교 3년, 고등학교 3년 그리고 대학교 4년. 총 16년간의 배움의 시간이 있었고,그 이후에는 직장에서 업무에 관련된 배움을 진행중이다. 사실 직장에서의 배움은 지식의 성장이 아니라 업무적인 요령이나 스킬을 배우는 느낌이 강하다.그래서 그런가 ‘내 실력을 뒷받침 할 수 있는 학문/이론 측면에서의 성장이 정말로 있었는가?’ 에 대한 의구심이 끊이지 않았다.업무에서의 요령이 느는것과 기반 지식이 성장하는 것은 많이 다른 얘기니까.하지만 매년 고민만 하고 정작 행동으로..
-
23년엔 무조건 한다 - 숀의 새해목표Shawn 2022. 12. 31. 01:14
“..벌써 신년이라고???” 이제 진짜 정말로 하루 뒤에는 해를 넘겨 2023년이 된다. 계묘년 검은토끼의 해. 보람있고 알찬 한 해를 보내기 위해 무엇을 할까? 이제는 정말로 고민할 때이다. 지켜질 지 안지켜질 지 모르는 계획들이지만 작년에 이어 또 다시 궁리하는 시간을 가져보았다. 숀의 신년 계획. 스타트. 신년계획: Study데이터 분석가는 고된 직업이다. 해도해도 공부할게 잔뜩 쌓여 있어서 언제 어디서든 지식 습득할 준비가 되어 있어야 한다지만 조금씩 늙어가는 나의 뇌는 이를 거부하기만 한다. 진작 미리미리 열심히 공부할 걸 후회하면 뭐하랴. 어차피 공부할 운명이라면 게으름 피우지 말고 열심히 하는 수 밖에.이변 년도에 공부할 것들을 정리한다. 1) ML/DLML:요즘 이 분야에 약간의 관심이라도..
-
About ShawnShawn 2022. 12. 25. 22:10
Shawn Choi. 6년차 데이터 분석가 부모님의 잔소리를 듣지 않기 위해 유년기때부터 숨 쉴틈 없이 길러온 눈치 학원 빼먹고 오락실 게임을 하기위해 숨겨진 동전을 찾으며 성장해버린 탐색력 귀찮은 일은 죽어라 하기 싫어서 학생때부터 요리조리 잔머리 굴려가며 길러진 효율적인 사고방식 짝꿍보다 시험점수 뒤쳐지기 싫어서 밤 새워 공부하는 경쟁심 이것이 나를 대표하는 키워드일까..? Expertise in: Python, R Large scale Data Analysis, Scala RL / DL Tableau Mathmatical Modeling Anomaly Detection OpenCV Project: Forging Pass Schedule Rule Automation Steel Bar Counting ..