목차 전체
1
도시데이터표준분석모델 : 민원분석편
제목 차례 5
1. 파이썬 설치 13
2. 데이터 분석환경 구축 21
2-1. 스파이더 프로그램 실행하기 21
2-2. 파이썬 라이브러리 설치하기 28
3. 데이터 수집 37
4. 데이터 분석 개념의 이해 47
4-1. 판다스 라이브러리 47
5. 자연어처리의 이해 61
5-1. 자연어 처리 61
5-2. 자바환경 구축 65
5-3. 파이코모란 환경 구축 72
6. 기계학습의 이해 77
6-1. Word2Vec 77
6-2. 랜덤 포레스트(Random Forest) 90
6-3. Confusion Matrix 94
6-4. 교차검증(Cross Validation) 99
7. 민원데이터 분석 실습 105
7-1. 전처리 코드 (01preprocess.py) 106
7-1-1. 학습데이터 106
7-1-2. 테스트 데이터 116
7-2. word2vec 모델링 (02word2vec.py) 120
7-3. 분류 결과 기술통계량 분석 (03stats.py) 133
8. 시민 민원분석을 통한 데이터 기반 도시혁신체계 구축을 위한 첫걸음 145
그림 차례 6
ㅣ그림 1ㅣ 아나콘다 홈페이지 화면 13
ㅣ그림 2ㅣ 아나콘다 설치 화면 14
ㅣ그림 3ㅣ 아나콘다 설치 실행화면 15
ㅣ그림 4ㅣ 아나콘다 이용약관 동의 화면 15
ㅣ그림 5ㅣ 아나콘다 관리자 타입 설정 16
ㅣ그림 6ㅣ 아나콘다 설치경로 화면 16
ㅣ그림 7ㅣ 아나콘다 환경설정 화면 17
ㅣ그림 8ㅣ 아나콘다 설치과정 17
ㅣ그림 9ㅣ 아나콘다 설치과정 18
ㅣ그림 10ㅣ 아나콘다 설치과정 18
ㅣ그림 11ㅣ 아나콘다 설치과정 19
ㅣ그림 12ㅣ 아나콘다 네비게이터 아이콘 21
ㅣ그림 13ㅣ 아나콘다 네비게이터 화면 22
ㅣ그림 14ㅣ 스파이더 실행 화면 22
ㅣ그림 15ㅣ 도구모음 설명 화면 23
ㅣ그림 16ㅣ 새로운 파일 생성 화면 23
ㅣ그림 17ㅣ 문자열 입력 연습 화면 25
ㅣ그림 18ㅣ 숫자연산 연습 화면 26
ㅣ그림 19ㅣ 파일 저장화면 27
ㅣ그림 20ㅣ 아나콘다 프롬프트 아이콘 28
ㅣ그림 21ㅣ 아나콘다 프롬프트 실행 화면 29
ㅣ그림 22ㅣ 아나콘다 프롬프트 실행 화면 29
ㅣ그림 23ㅣ 환경 업데이트 실행 화면 30
ㅣ그림 24ㅣ 환경 업데이트 실행 화면 30
ㅣ그림 25ㅣ 환경 업데이트 완료 화면 30
ㅣ그림 26ㅣ numpy 라이브러리 정보화면 31
ㅣ그림 27ㅣ scipy 라이브러리 정보화면 32
ㅣ그림 28ㅣ pandas 라이브러리 정보화면 32
ㅣ그림 29ㅣ statsmodels 라이브러리 정보화면 33
ㅣ그림 30ㅣ matplotlib 라이브러리 정보화면 33
ㅣ그림 31ㅣ seaborn 라이브러리 정보화면 34
ㅣ그림 32ㅣ scikit-learn 라이브러리 정보화면 34
ㅣ그림 33ㅣ gensim 설치 완료 후 라이브러리 정보화면 35
ㅣ그림 34ㅣ 데이터 수집 과정 37
ㅣ그림 35ㅣ 서울디지털재단 Github 메인화면 38
ㅣ그림 36ㅣ 서울디지털재단 깃허브 분석용 데이터 모음 38
ㅣ그림 37ㅣ Github 자료 다운로드 화면 39
ㅣ그림 38ㅣ 로컬분석환경 구축 안내화면 39
ㅣ그림 39ㅣ 압축파일 풀기 40
ㅣ그림 40ㅣ 스파이더 프로젝트 연결화면 40
ㅣ그림 41ㅣ 스파이더 프로젝트 만들기 41
ㅣ그림 42ㅣ 스파이더 프로젝트 실행화면 41
ㅣ그림 43ㅣ 스파이더 프로젝트 연동화면 42
ㅣ그림 44ㅣ 서울열린데이터광장 홈페이지 42
ㅣ그림 45ㅣ 서울열린데이터광장 검색결과 43
ㅣ그림 46ㅣ 서울열린데이터광장 자유제안 자료화면 44
ㅣ그림 47ㅣ 서울열린데이터광장 채택제안 자료화면 44
ㅣ그림 48ㅣ 민주주의 서울 데이터 자료화면 45
ㅣ그림 49ㅣ 시리즈 형태 예시 47
ㅣ그림 50ㅣ 데이터프레임 형태 예시 48
ㅣ그림 51ㅣ import 명령어 형태 예시 49
ㅣ그림 52ㅣ 2차원 매트릭스 시각화 예시 50
ㅣ그림 53ㅣ 스파이더 환경 내 출력화면 50
ㅣ그림 54ㅣ 데이터 프레임 추가예시 52
ㅣ그림 55ㅣ 병합된 데이터프레임 예시 52
ㅣ그림 56ㅣ df2 출력 화면 예시 53
ㅣ그림 57ㅣ df3 출력 화면 예시 53
ㅣ그림 58ㅣ df3 결측값 확인 화면 예시 54
ㅣ그림 59ㅣ df4 중복값 삭제 화면 예시 55
ㅣ그림 60ㅣ df5 결측값 삭제 화면 예시 55
ㅣ그림 61ㅣ df3 시계열 데이터 치환 화면 예시 56
ㅣ그림 62ㅣ 속성화면 예시 57
ㅣ그림 63ㅣ 엑셀 파일 불러오기 예시 57
ㅣ그림 64ㅣ 리스트와 시리즈의 차이 예시 58
ㅣ그림 65ㅣ csv파일로 저장하기 예시 59
ㅣ그림 66ㅣ train_df 실행결과 60
ㅣ그림 67ㅣ train_df의 컬럼 출력결과 60
ㅣ그림 68ㅣ 데이터 전처리 과정 61
ㅣ그림 69ㅣ Java JDK 설치화면 65
ㅣ그림 70ㅣ Windows 64bit용 JDK 다운로드 화면 66
ㅣ그림 71ㅣ Windows 64bit용 JDK 설치화면 66
ㅣ그림 72ㅣ Window 64bit용 JDK 설치 67
ㅣ그림 73ㅣ Window 64bit용 JDK 설치 화면 67
ㅣ그림 74ㅣ Windows 64bit 시스템 및 보안 화 68
ㅣ그림 75ㅣ Windows 시스템 속성 창 68
ㅣ그림 76ㅣ Windows 환경 변수 화면 69
ㅣ그림 77ㅣ Windows 시스템 변수 화면 69
ㅣ그림 78ㅣ Windows 환경 변수 화면 70
ㅣ그림 79ㅣ Windows 사용자 변수 화면 70
ㅣ그림 80ㅣ Windows 명령프롬프트 화면 71
ㅣ그림 81ㅣ Anaconda Prompt 71
ㅣ그림 82ㅣ Anaconda Prompt 71
ㅣ그림 83ㅣ Anaconda Prompt 72
ㅣ그림 84ㅣ Anaconda Prompt 72
ㅣ그림 85ㅣ Windows OS 실행 창 74
ㅣ그림 86ㅣ 사용자 사전 74
ㅣ그림 87ㅣ 데이터 분석과정 77
ㅣ그림 88ㅣ 벡터의 기본 개념 78
ㅣ그림 89ㅣ 머신러닝 상에서 쓰는 벡터머신 예시 78
ㅣ그림 90ㅣ 윈도우 크기가 2인 예시 81
ㅣ그림 91ㅣ 단어-문맥 행렬 예시 82
ㅣ그림 92ㅣ 단어 간 유사도 파악 시각화자료 83
ㅣ그림 93ㅣ 코사인 유사도 출처 - 위키백과 84
ㅣ그림 94ㅣ CBOW 방식 예시 85
ㅣ그림 95ㅣ CBOW 신경망 구조 86
ㅣ그림 96ㅣ Skip-gram 방식 예시 87
ㅣ그림 97ㅣ Skip-gram 신경망 구조 87
ㅣ그림 98ㅣ Gensim 패키지를 활용한 Word2vec 구현 88
ㅣ그림 99ㅣ 의사 결정 나무의 구조 설명 91
ㅣ그림 100ㅣ 의사 결정 나무 예시 ? 타이타닉 생존자 찾기 91
ㅣ그림 101ㅣ 랜덤포레스트 예시, 위키피디아 94
ㅣ그림 102ㅣ Confusion Matrix 예시 96
ㅣ그림 103ㅣ 정확도의 측정 예시 96
ㅣ그림 104ㅣ 정밀도의 측정 예시 97
ㅣ그림 105ㅣ 재현도의 측정 예시 97
ㅣ그림 106ㅣ AUC curve 예시 99
ㅣ그림 107ㅣ Holdout 교차 검증 102
ㅣ그림 108ㅣ K-fold (k=10)의 검증방법 103
ㅣ그림 109ㅣ Leave-one-out 교차검증 103
ㅣ그림 110ㅣ 데이터 분석과정 105
ㅣ그림 111ㅣ word2vec 모델링 시각화 126