5주차 | Notion

6개의 O,X문제가 있습니다. (2점4개, 1점2개)

1. df.isna() 와 df.isnull()의 출력결과는 같다 [2점] 
 (O)
<https://www.inflearn.com/questions/54407/%EC%84%A0%EC%83%9D%EB%8B%98-isnull%EA%B3%BC-isna%EC%9D%98-%EC%B0%A8%EC%9D%B4%EB%8A%94-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80%EC%9A%94>

2. 데이터가 아래와 같을 때, 나이가 25살 이상이고, 
이름이 'Nate'인 값만 출력하고 싶은 경우, 
df[(df.age>25)and(df.name=='Kate')]를 써주면 된다. [1점]
friend_list = [
['name',['Kelly', 'Jenny', 'Kate']],
['age', [19,21,26]],
['job',['student', 'developer', 'teacher']]
]
일단은 (O)
-> df[(df.age>25)and(df.name=='Kate')] 가 아니라 & 만 인식 가능한데 세모...?

3.판다스를 활용하여 데이터를 불러올 때, csv파일은 가능하지만 txt파일은 불가능하다. [1점]
(X)
출처: 인프런 강의 : 파일에서 데이터 불러오기

4. dictionary를 통해 데이터프레임을 생성하면  딕셔너리의 key값이 
자동적으로 row 값으로 변환된다.[2점]
(O)
<https://wikidocs.net/4367>

5.df를 csv 파일로 저장하기 위해서
df.to_csv('friends.csv', index = True, header = True, na_rep = '-') 
와 같이 작성했을 때, na_rep = '-'는 None 값을 '-'로 바꾼다는 의미이다.[2점]
(O)
na_rep: NaN 또는 None 값을 대체할 값. 기본값은 빈 문자열('')
<https://wikidocs.net/159465>

6.student_list = [{'name': 'A', 'major': "Computer Science", 'sex': "male"},
                {'name': 'B', 'major': "Economics", 'sex': "female"},
                {'name': 'C', 'major': "Physics", 'sex': "female"},
                {'name': 'D', 'major': "Psychology", 'sex': "male"},
                {'name': 'E', 'major': "Computer Science", 'sex': "male"},
                {'name': 'F', 'major': "Economics", 'sex': "female"}
                ] 

df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df['Classification']=np.where(df['sex'] != 'female' ,'1','2')
데이터가 다음과 같을 때

Classification열의 출력 값은 [ 2 , 1 , 1 , 2, 2, 1] 이다.[2점]
(X)
np.where(condition, x, y)
np.where(df['sex'] != 'female' ,'1','2') 코드는
df 데이터프레임의 'sex' 열에서 값이 'female'이 아닌 경우 '1'을,
그렇지 않은 경우 '2'를 배정한다
따라서 [1,2,2,1,1,2]가 된다

1. pandas는 리스트와 딕셔너리 뿐만 아니라 튜플로도 pd.Series를 이용하여 
	시리즈로 만들 수 있다. (O)

<https://yganalyst.github.io/data_handling/Pd_1/>

2. df.to_csv(’csv파일명.csv’)은 df.to_csv(’friends.csv’,index=True,header=True)와 
	똑같은 기능을 한다. (O)

-> 챗지피티는 자꾸 안같다는 데 왜 인지 모르겟음. 출력은 같음
df.to_csv('csv파일명.csv')는 인덱스와 헤더를 포함하지 않고 CSV 파일을 저장합니다. 
이는 index=False와 header=False가 기본값인 것과 같습니다.
반면, df.to_csv('csv파일명.csv', index=True, header=True)는 인덱스와 헤더를 포함하여
CSV 파일을 저장합니다. 이는 index=True와 header=True가 명시된 것과 같습니다.

3. pandas에서는 isnull과 notnull 함수들을 이용해 소실 자료들을 찾을 수 있다. (O)
<https://wikidocs.net/153206>

4. 파이썬 집합과는 다르게 pandas 인덱스는 중복된 값을 가질 수 있다. (O)

5. data = {'name': ['Rho', '', ‘Shin', 'Kim', 'Park'],
           'year': [2013, 2014, 2015, 2016, 2015],
	         'points': [1.5, 1.7, 3.6, 2.4, 2.9]}
	df2=pd.DataFrame(data,columns=['year','name','points','penalty'],
	                 index=['one','two','three','four','five'])
	일때, column이 ‘penalty’인 values들은 0값을 갖는다. (X)

'penalty' column의 값이 지정되지 않았기 때문에 해당 column의 값들은 NaN(결측값)으로 설정됩니다.

6. pandas에서 데이터를 선택할 때, loc() 함수는 위치 기반으로, 
	iloc() 함수는 라벨 기반으로 선택한다. (X)

loc 함수는 at 함수와 같이 레이블 기반으로 인덱싱을 합니다.
iloc 함수는 iat 함수와 같이 정수 기반으로 인덱싱을 합니다.
정수기반 조회 메서드입니다.

7. pandas데이터에서 Tab으로 구분되어 있는 데이터는  
	**‘data/friend_list_tab.txt’ 를 통해 출력할 수 있다. (X)
df = pd.read_csv('data/friend_list_tab.txt', delimiter='\\t')

8. pandas는 csv, xls, hdf, html 등의 데이터 프레임을 
	pd.read_csv()를 통해 불러 올 수 있다. (X)

pd.read_csv(): 쉼표(,)로 구분된 텍스트 파일
pd.read_excel(): Microsoft Excel 파일
pd.read_hdf(): HDF5(Hierarchical Data Format) 파일
pd.read_html(): HTML 파일 또는 웹 페이지에서 테이블을 스크래핑하여 데이터프레임으로 변환
따라서, 각 파일 형식에 맞는 함수를 사용하여 데이터를 불러올 수 있습니다.

9. 외부의 csv파일이 input.csv이고 총 8행의 데이터가 있다. 
	이를 data = pandas.csv_read(input.csv)라 할 떄,  data.head(input.csv)와 
	data.tail(input.csv)를 각각 실행했을 때 총 출력개수는 8개이다.  (X)

<https://wikidocs.net/151473>
head함수는 Dataframe 객체를 위에서부터 n열 반환하는 함수입니다.
기본값은 5입니다.

10. 만든 데이터(data_frame)를 파일명이 output이고 저장경로를 
	address = 'D:\\' 로 지정했을 때, csv파일로 내보낼 때는 
	data_frame.to_csv(path_or_buff = address+'output.csv')로 하면 된다. (X)

<https://wikidocs.net/159465>
path_or_buff->path_or_buf...
오타일 가능성 높음

Untitled