목록파이썬 (23)
one step
matplotlib으로 차트 설정하기 파이썬의 차트 라이브러리인 matploblib에 대해서 더 자세히 알아봅시다. matplotlib 라이브러리는 단순히 차트를 그리는 것뿐만 아니라, 차트에 더 많은 정보를 추가하고 보기 좋게 만드는 다양한 기능을 제공하고 있습니다. 한국어 표시를 위해 폰트 설정하기 차트의 제목 설정하기 X축과 Y축에 라벨 표시하기 차트의 여백 조정하기 함께 따라하기 작성된 코드는 이전에 나온 영어 단어 모음 분석하기 문제에서 사용했던 코드를 약간 수정한 것입니다. 먼저 코드와 각 줄의 주석을 잘 읽고, 직접 실행해 보세요. 코드를 조금씩 수정하며, 차트의 모양이 변하는 것을 확인해 보세요. import matplotlib.pyplot as plt import matplotlib.fo..
영어 단어 빈도수 찾기 corpus.txt 파일은 특정 문서를 분석한 결과, 발견되는 모든 영어 단어와 그 빈도를 저장한 문서입니다. (오른쪽 실습 창에서 corpus.txt 파일을 직접 열어보실 수 있습니다.) corpus.txt 파일에는 영어 단어와 해당 단어의 빈도수가 각각 /(슬래시)를 기준으로 나누어져 쓰여져있습니다. 이 파일에서, 주어진 text로 시작하는 모든 단어와 그 빈도를 출력하는 기능을 하는 함수 filter_by_text(text)를 구현하세요. 지시사항 corpus.txt에 있는 모든 단어와 빈도수를 tuple의 형태로 리스트corpus에 추가합니다. 리스트 corpus 에 저장된 데이터 중에서 text변수의 문자열로 시작하는 단어만을 추려 리스트 result에 저장합니다. 리스트..
트럼프 대통령 트윗 분류하기 주어진 트럼프 대통령의 트윗 메시지를 받아 해시태그(#), 멘션(@), 메세지로 분류하는 함수trump_tweet(text)를 작성하세요. 지시사항 trump_tweet 함수는 text를 공백을 기준으로 nnn개의 문자열로 나눕니다. 각각의 나누어진 문자열을 아래의 규칙을 따라 분류합니다. 각 문자열이 '#'로 시작하면 'Hashtag'로 분류하여 리스트에 저장합니다. 각 문자열이 '@'로 시작하면 'Mention'로 분류하여 리스트에 저장합니다. 이외의 경우는 묶어서 따로 분류하여 리스트에 저장합니다. 각각 분류된 리스트를 아래 지정된 형식처럼 출력되도록 print 함수를 이용합니다. 입출력 예시 입력 trump_tweet 함수의 인자는 text로 문자열 변수가 입력됩니다...
영어 단어 모음 분석하기 이 프로젝트에서는 영어 단어와 그 빈도수를 정리한 British National Corpus 단어 모음을 분석하고 시각화해봅니다. corpus.txt를 이용해 가장 많이 사용된 영어 단어 분석 matplotlib을 이용해 단어 별 사용 빈도를 보여주는 막대 그래프 작성 분석 후《이상한 나라의 엘리스》동화책에 등장하는 단어 수와 BNC 데이터를 비교해보겠습니다. 가장 많이 등장하는 단어의 분포 불용어를 제외하고 가장 많이 사용된 단어 라이브 수업에서 함께 코드를 작성하기 전에 corpus.txt 파일과 main.py의 스켈레톤 코드를 살펴보세요. 작성해야 하는 함수 import_corpus(filename) create_corpus(filenames) filter_by_prefix..

트럼프 대통령 트윗 분석하기 첫 번째 프로젝트에서는 트럼프 대통령이 2017년 1월 20일 취임 이후 1년 동안 게시한 2,500여 개의 트윗을 분석해봅니다. 가장 많이 사용한 #해시태그 가장 많이 사용한 키워드 가장 많이 사용한 @멘션 월별 트윗 통계 분석 후, 데이터의 유형에 알맞은 시각화 코드를 살펴봅니다. 막대 그래프 단어 구름 코드를 작성하기 전에 tweets.py 파일과 main.py의 스켈레톤 코드를 살펴보세요. 작성해야 하는 함수 preprocess_text(text) analyze_text(words) filter_by_month(tweet_data, month) 세부 구현 사항 1. preprocess_text(text) 문자열 text를 가공하여 반환합니다. 모든 알파벳 대문자를 알파..

명언 인물 수집 배운 내용을 활용해 명언 사이트를 크롤링해보도록 하겠습니다. http://quotes.toscrape.com/ 해당 명언 페이지에서 볼 수 있는, 명언을 말한 인물(예: Albert Einstein J.K. Rowling)들의 개수를 조사하고자 합니다. 명언을 말한 인물의 이름을 key, 해당 인물의 명언 개수를 value로 갖는 딕셔너리를 반환하는 함수를 작성하세요. 지시사항 함수 crawl_contents가 올바르게 구현되어야 합니다. crawl_contents 함수 매개변수: webdriver와 스크래핑 해야 하는 웹 페이지의 url 반환값: 첫 페이지에 존재하는 명언을 말한 인물의 이름(문자열)을 key로 갖고, 해당 인물의 명언의 개수(int)를 value로 갖는 딕셔너리 예를 ..

명언 태그 수집 배운 내용을 활용해 명언 사이트를 크롤링해보도록 하겠습니다. http://quotes.toscrape.com/ 해당 명언 페이지의 명언들의 태그(예: change deep-thoughts thinking world)들의 빈도수를 조사하고자 합니다. 지시사항 함수 crawl_contents가 올바르게 구현되어야 합니다. crawl_contents 함수 매개변수: webdriver와 스크래핑 해야 하는 웹 페이지의 url 반환값: 첫 페이지에 존재하는 명언 총 10개에서 태그(문자열)를 key로 갖고, 태그의 빈도수(int)를 value로 갖는 딕셔너리 예를 들어 inspirational 태그의 빈도가 10이고 life 태그의 빈도가 5라면 딕셔너리 내에서 {'inspirational': 1..

도서 제목 수집 도서 구매 사이트를 크롤링해보도록 하겠습니다. http://books.toscrape.com/ 지시사항 함수 crawl_contents가 올바르게 구현되어야 합니다. crawl_contents 함수 매개변수: webdriver와 스크래핑 해야 하는 웹 페이지의 url 반환값: 페이지에 존재하는 도서 총 20권의 제목(문자열)을 담고 있는 list (단, 도서의 제목이 말줄임표(...)로 생략되지 않은 형태로 출력되어야 합니다.) main 함수 main 함수에서 crawl_contents 함수를 호출하여 구현 결과를 테스트해볼 수 있습니다. 채점 기준 crawl_contents 함수의 반환값이 올바른 값이라면 정답으로 처리됩니다. Tips! webdriver 는 main 함수에서 이미 실행..
세 번째 프로젝트세 번째 프로젝트는 이 웹페이지에서 진행합니다. 서버와 ajax 통신 이 이루어지는 페이지이므로, wait 기능을 활용해보고, 여러 페이지로부터 데이터를 추출하는 방법을 학습합니다. 지시사항 1) 저번 실습과 마찬가지로, 웹에 있는 데이터를 구조화된 데이터(Structured Data)로 만들기 위해 class 를 먼저 정의합니다. 멤버 변수로 들어가야할 것은 다음과 같습니다. 영화 제목 해당년도 후보등록 수 수상 개수 2) 각 연도별 링크 요소를 찾습니다. 3) 각 연도별 링크 요소를 하나씩 클릭해가며 모든 영화 데이터를 추출해서 Film 인스턴스로 만들어 film_list 에 추가합니다. 4) 그런데 버튼을 클릭하면 데이터를 서버에서 가져오는 ajax 통신이 이루어집니다. 때문에 로딩..
두 번째 프로젝트 두 번째 프로젝트는 이 웹페이지에서 진행합니다. 검색 기능을 활용해보고, 여러 page에 걸쳐 표시되고 있는 data를 추출하는 방법을 배웁니다. 지시사항 1) 저번 실습과 마찬가지로, 웹에 있는 데이터를 구조화된 데이터(Structured Data)로 만들기 위해 class 를 먼저 정의합니다. 멤버 변수로 들어가야할 것은 다음과 같습니다. 팀명 기록연도 승수 패수 2) 검색 기능을 활용하기 위해, 단어를 입력할 요소와 Search 버튼 요소를 찾습니다. 3) 검색어를 입력(send_keys())하고 Search 버튼을 클릭(click())합니다. 검색어는 New 입니다. 4) New로 검색하면 총 세 팀이 나올텐데, 연도별 각 팀의 기록을 Record 인스턴스로 만들어 record_..