본문 바로가기

분류 전체보기162

[ML] Wine Analysis _DecisionTree STEP01. Import Data import pandas as pd red_url = "https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/winequality-red.csv" white_url = "https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/winequality-white.csv" red_wine = pd.read_csv(red_url, sep=';') white_wine = pd.read_csv(white_url, sep=';') pinkwink github의 red_wine / white_wine 데이터로 프로젝트를 진행한다. 해당 파일을 훑.. 2023. 1. 5.
[ML] Encoder and Scaler ML의 대표적인 도구 sklearn을 사용할때, 대표적인 두가지(가지를 치자면4가지)의 개념 STEP 01. LabelEncoder : 문자를 숫자로 바꾸는데 유용하다. pd.DataFrame으로 표를 하나 생성해준 뒤, LabelEncoder를 import해준다. 이를 le변수에 담아준 뒤 df['A']를 fit(학습)시켜준다. le.classes_로 개체를 확인 가능하다. transform으로 fit에서 학습시킨 부분을 적용시켜주면 된다. 이를 눈으로 확인해보고자 df에 le_A 칼럼을 추가하여 해당 내용을 담아주었다. fit_transform으로 fit과 transform을 동시 출력도 가능하다. le.transform(['a'])로 a의 숫자정보를 바로 볼 수도 있다. inverse_transfo.. 2023. 1. 4.
[ML] Titanic Survivor Prediction_ dicaprio&winslet STEP 01. Data Info titanic의 구조를 확인해 쓸 수 있는 데이터를 확인해본다. pclass, sex, age, fare 등이 활용하기 좋을 것 같다. 각각의 컬럼에 1309개의 데이터가 있어야 하는데, 그렇지 않은 칼럼도 존재한다. 이번 프로젝트에서 age와 fare을 제외한 결측치는 포기해준다. 중요한 것은 머신러닝을 위해서는 해당 컬럼을 숫자로 변경해야 한다는 점이다. STEP 02. Transform Data sklearn의 preprocessing 전처리 모듈에서 제공하는 LabelEncoder을 사용한다.이는 문자를 숫자로 바꿔주는 키워드이며, 이를 fit(학습)을 시켜준다. classes_를 확인해보면 해당 값 확인 가능하다. titanic 데이터에 gender 컬럼을 새로.. 2023. 1. 3.
[ML] Titanic Survivor Prediction STEP01. Import Data # !pip install plotly_express import pandas as pd titanic_url = "https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/titanic.xls" titanic = pd.read_excel(titanic_url) titanic.head() 민형기 강사님의 github에 있는 titanic.xls를 사용하여 프로젝트를 진행한다. STEP02. Data Analysis import matplotlib.pyplot as plt import seaborn as sns plt.subplots( )로 하나의 창에 여러개의 도표를 띄우게 하고 이를 f, ax 변수에.. 2023. 1. 3.
[ML] Data Split_ zip / unpacking list1, list2가 존재하는 상황에서 pair for pair in zip(list1, list2)로 zip해준다. dict형태, tuple, list 형태로 변환 가능하다. unpacking은 x, y = zip(*pairs)로 x, y변수에 각각의 데이터를 담아주어 나누는 것이다. 이 또한 형태 변환이 가능하다. 2023. 1. 2.
[ML] Data split_ tree_ iris STEP01. Import, Split Data load_iris 데이터를 import 해주고 iris 변수에 담아준다. features 변수에 test용 sample데이터를 2개만 나눠준다. X_train, X_test, y_train, y_test 4개의 변수를 train_test_split 함수를(sklearn의 데이터를 잘 나눠주는 모델) 사용해서 반환받을 것이다. (train훈련용 한세트, test샘플용 한세트) test_size를 0.2로 설정하면 훈련용은 80%, 테스트용은 20%로 했다는 것이다. .shape으로 확인해보면 8:2로 설정해준 비율값에 맞게 120개, 30개가 잘 들어간 것을 볼 수 있다. STEP02. Check Data ** 데이터 분리시에 주의해야 할 점은, 훈련용 / .. 2023. 1. 2.
bash / zsh _ Shell ERROR 참고링크 https://blog.naver.com/donut_nv/222172178680 mac os shell 확인과 변경 안녕하세요. Mac os에서 터미널 사용시 아래와같은 알림이 자꾸 뜨길래 실제로 시도 해봤습니다. To upda... blog.naver.com https://lovelydiary.tistory.com/309 Mac) Path 추가하기 (+bash쉘, zsh쉘, echo$PATH, vi 편집기) #1. 일반적으로 Mac에 설치한 파일(예를들어 MySQL)은 해당 파일이 설치된 폴더로 들어가야만이 파일을 실행할 수 있다. 하지만 터미널 상에서 매번 해당 파일이 설치된 폴더로 cd 해서 이동하는 건 lovelydiary.tistory.com https://yunwoong.tistory.com/.. 2023. 1. 2.
CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'. source ~/opt/miniconda3/etc/profile.d/conda.sh - 참고 링크 https://yunwoong.tistory.com/112 [Anaconda] CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'. 해결 방법 Anaconda로 만든 가상환경 활성화 시 아래와 같은 오류가 발생하는 경우가 있습니다. CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'. To initialize your shell, run 해결방법은 아래 yunwoong.tistory.com 2023. 1. 2.
[Tableau] 계산된 필드_ 연산자(KPI) 계산된 필드 구성 요소 필드 - 데이터 원본에 존재하는 필드를 활용해 새로운 필드를 만듭니다. 연산자 - 함수, 필드, 매개변수 등을 연결하고 계산을 판단하는 요소입니다. 매개변수 - 상수 값을 동적인 값으로 변경해주는 변수입니다. 함수 - 새로운 계산식을 적용하기 위해 기존 데이터 원본의 필드에 유형 및 역할을 결정하는데 영향을 줍니다. 주문번호를 사용하여 주문 건수를 계산한다. 일반적으로 주문건수는 데이터 원본에 포합되지 않는 경우가 많아 별도로 만들어 주어야 한다. 주의해야 할 점은, 주문번호를 단순 카운트 하게 되면 중복이 되기 때문에 고유 카운트, 즉, count distinct를 해주어야 한다. 그 이유는, 한 고객이 여러가지 아이템을 구매했을 경우, 하나의 주문 건수에 다수의 제품이 있기 때.. 2022. 12. 31.