'미세먼지 농도' 예측…어떤 슬롯 꽁 머니가 쓸모 있나

'코알못' 기자 슬롯 꽁 머니CE 도전기 (5)·끝
마지막으로 해볼 인공지능(AI) 모델링은 ‘미세먼지 수치 예측’이다. 주어진 슬롯 꽁 머니는 측정 일자의 평균 온도와 습도, 미세먼지 농도, 초미세먼지 농도, 이산화탄소(CO2) 농도, 소음, 유해가스 농도, 쾌적지수, 그리고 다음날(D+1) 미세먼지 평균 농도 등이다.

맞혀야 하는 D+1 미세먼지 농도가 레이블(label), 그 외의 정보는 피처(feature)다. 쓸모 있는 슬롯 꽁 머니와 그렇지 않은 슬롯 꽁 머니를 가려내기 위해 에이아이두 이지(AIDU ez)를 실행하고 슬롯 꽁 머니 분석에 나섰다.‘기초 정보 분석’ 탭에서 항목별 슬롯 꽁 머니를 보면 결과에 영향을 주지 않는 슬롯 꽁 머니를 볼 수 있다. 행 번호를 기록한 인덱스와 모두 동일한 값을 보여주는 장치 서비스 ID, 하나의 값이 대다수를 차지하는 장치 모델명 등이 대표적이다. 평균 CO2 농도는 전체 2만 개 슬롯 꽁 머니 중 98.6%의 값이 ‘0’이라는 사실도 알 수 있다. 이 같은 슬롯 꽁 머니를 AI에 학습시키면 예측의 정확도를 떨어뜨릴 수 있으니 삭제한다.

다음으로 할 일은 값이 없는 슬롯 꽁 머니, 결측값을 채우는 일이다. 측정 범위와 평균 온도 슬롯 꽁 머니는 각각 300여 개의 결측값이 존재한다. ‘슬롯 꽁 머니 가공’ 탭에서 손쉽게 결측값을 입력할 수 있다. 측정 범위는 최빈값을, 평균 온도는 평균값을 선택했다.

슬롯 꽁 머니 전처리를 마쳤다면 AI 모델 학습을 시작할 차례다. 필요 없는 인덱스, 장비, CO2 등의 슬롯 꽁 머니는 피처에서 제외했다. 장소 코드 슬롯 꽁 머니의 유형은 숫자형(numerical)에서 범주형(category)으로 바꿔야 한다. 숫자형으로 두면 AI가 학습 과정에서 숫자 크기에 따른 가중치를 줄 수 있어서다.D+1 미세먼지 농도를 아웃풋 슬롯 꽁 머니로 옮겨놓고 ‘학습 시작’을 누르면 AI 모델이 만들어진다. 변수 영향도를 확인한 결과 평균 쾌적지수가 다음날 미세먼지 농도에 가장 큰 영향을 미친다는 사실을 확인할 수 있다. AI 모델에 새로운 슬롯 꽁 머니를 입력하면 다음날 미세먼지 농도를 예측할 수 있다.

앞서 배운 타이타닉 생존자 예측 문제는 생존과 사망 가운데 하나를 예측하는 ‘분류(classification)’에 해당한다. 미세먼지 예측은 구체적인 수치를 맞히는 ‘회귀(regression)’ 문제로 볼 수 있다. 분류와 회귀는 머신러닝 방식 가운데 정답을 주고 슬롯 꽁 머니를 학습시키는 ‘지도 학습’의 대표적인 유형이다. 제1회 슬롯 꽁 머니CE 정기시험에서 도 분류와 회귀에 관한 문제가 하나씩 출제됐다.

이승우 기자 leeswoo@hankyung.com