⛲

머신러닝을 활용한 텍스트마이닝

날짜

텍스트마이닝이 무엇인가요?

텍스트마이닝이란, 텍스트에서 의미 있는 정보를 추출하는 것을 뜻합니다.

텍스트 데이터를 활용하여 감성 분석을 할 수도 있고, 유사한 문서들을 찾아낼 수도 있고, 문서를 분류하는 데 활용할 수도 있습니다. 이때, 머신러닝을 활용하여 정확도를 높입니다. 이를 위해서 자연어를 전처리하는 방법을 배우고 텍스트 데이터를 벡터화하는 방법을 익힙니다.

빈도 분석과 워드 클라우드

동시 출현 단어 기반 의미 연결망

‘22년 여름 머신러닝을 활용한 텍스트마이닝 스터디 일정

주차	날짜	모듈
1주차	7월 11일(월)	자연어처리 개념 / 자연어 전처리 코드 실습 워드클라우드
2주차	7월 18일(월)	n-gram / 텍스트 벡터 생성
3주차	7월 25일(월)	문서 유사도 / 문서 분류
4주차	8월 1일(월)	LDA 토픽 모델링 / 의미 연결망 분석
5주차	8월 8일(월)	데이터 크롤링 특강 + 프로젝트 준비 (+ 오전반 주중 30분씩 리더와 팀 미팅 / 추후 안내)
6주차	8월 15일(월)	프로젝트 발표

스터디 모집 기간

6월 27일(월) ~ 7월 7일(목) 입금자 기준 선착순 오전반 비대면 최대 21명 / 오후반 대면 최대 30명 (정원 초과시 조기 마감될 수 있습니다. 마감시 해당 페이지를 통해 공지 드립니다.)

스터디 준비사항

•

스터디 당일 PPT 자료 제공

자료 예시

1강 텍스트 분석.pdf

1105.2KB

•

Colab 코드 제공

자료 예시

1-2강. 텍스트 전처리와 워드클라우드.ipynb

13.4KB

커리큘럼

커리큘럼은 유동적으로 변경될 수 있습니다.

1주차 워드 클라우드

글 속에 등장한 단어를 전처리하여 빈도를 분석하고

한 눈에 파악하기 쉽도록 워드 클라우드를 만들어 확인합니다.

2주차 n-gram / 텍스트 유사도

n-gram 워드 클라우드를 만들어 보고 텍스트 벡터를 생성하는 실습을 합니다.

텍스트 벡터를 만들어 문서 유사도를 계산합니다.

3주차 텍스트 문서 분류

텍스트 데이터를 수치화(벡터화)하여 문서들간의 유사도를 구하고

유사한 문서를 추천 또는 검색하는 시스템을 만들어 봅니다.

4주차 LDA 토픽모델링 / 의미 연결망 분석

다양한 주제의 문서에서 토픽을 추출하고

어떤 단어들이 토픽에서 활용되었는지 알아봅니다.

	오전반 (비대면 진행)	오후반 (대면 진행)
난이도	중 \| 파이썬 실력: ★★★☆☆	중 \| 파이썬 실력: ★★★☆☆
강의 녹화	강의 녹화 후 파일 제공	오전반 강의 녹화본 제공
장소	ZOOM 실시간 강의	종로 P&T 스퀘어 4층 (종로3가역 3분 거리)
시간	매주 월요일 오전 10시~오후 12시 (2시간)	매주 월요일 오후 2시~오후 5시 (3시간)
참가비	7만 원	15만 원 (대관비 포함)
모집 인원	최대 21명 / 3인 1개 팀	최대 30명 / 3인 1개 팀