취미로 하는 개발(22)
-
뉴스룸 자동화 후후속조치
Ubuntu 20.04 LTS 홈 서버 구축기 (2) 저번 편에서는 ubuntu20.04 LTS 버전을 내 서버에 설치하는 부분까지 진행했다. 사실 이 시리즈는 친절하게 설치 방법을 알려준다는 목적보다는, 내 스스로의 기록과 회고 측면에 가깝기 때문에 중�� nookpi.tistory.com 거지같은 방식으로 크롤링 데이터를 저장하고 가져오던 AWS를 벗어나, (AWS 는 죄가 없다.. 내가 못났을 뿐...) 홈 서버 구축과 동시에 DRF api 로 이전되었다. 당분간 aws는 그대로 유지되지만 이미 폰에 있는 스크립트에서도 뉴스룸 서버는 홈 서버로 이전한 상황이다. 기존에 aws에 구축했던 여러 서비스들 (php로 만든 맛집 정보 크롤링 웹사이트 , STT 웹 서비스)도 차차 홈서버로 이전할 계획이다.
2020.07.23 -
Python으로 단톡방 채팅 내용 키워드 분석하기
일정이 붕 떠서 심심하던 차에, 문득 친구들이랑 떠드는 단톡방이나 한 번 까보고 싶어졌다. 하려는 일의 순서는 다음과 같다. 단톡방 대화내용 확보 대화내용을 화자별로 구분하여 저장 각 문장에서 단어를 추출하여 사용 빈도가 높은 순서대로 정렬 일단 대화 내보내기를 통해 단톡방의 내용을 txt파일로 받아놓는다. 데이터가 어떻게 구성되어 있는지를 확인해야 원하는 부분을 추출할 수 있기 때문에 txt파일을 열어서 확인해본다. 데이터 맨 윗줄은 단톡방 이름, 인원, 저장된 날짜가 노출되어 있었다. 마지막 채팅 이후 새 채팅이 시작된 시점에 날짜가 지난 경우 {시간}만 노출된 데이터도 있었고, 쭉 흝어보니 대화 데이터는 {시간},{이름} : {내용} 으로 표현되어 있었다. 내가 필요로 하는 데이터는 오직 {이름},..
2020.06.28 -
뉴스룸 자동화 후속조치
기존에 구축했던 뉴스룸 자동화를 약 2주간 사용하면서 많은 문제가 있었다. 1. 크롤링 트리거를 PHP 코드에 넣다보니 호출시마다 불필요한 크롤링이 계속 실행되었다. 2. CPU 리소스 사용량, 네트워크 패킷량이 커서 AWS가 종종 멈추기도 하고 클라이언트 IP가 차단되기도 했다 ㅠㅠ 3. 기타 파이썬 코드를 PHP에서 실행하는 부분 때문에 온갖 문제가 많이 발생했다. 이 문제를 해결하기 위한 수정사항이 있었다. 1. 기존 Python 크롤링 결과를 print out 하고 PHP에서 받아오는 방식에서, txt파일에 담아 보관하는 부분으로 변경. 2. 결과값을 호출할 때 크롤링을 실행하는 방식에서, Crontab을 이용하여 매일 자동 실행 방식으로 변경. Sbs.php
2020.06.25 -
각 사이트 뉴스 크롤링 with python + 뉴스룸 카톡 전송 자동화
이 글은 마크다운으로 작성되었습니다. 목차 뉴스룸이란 무엇인가 어떻게 자동화 하려고 했는가 어떻게 삽질했는가 어떻게 해결했는가 결과 1. 뉴스룸이란 무엇인가 📰 뉴스룸이란 무엇인가. 그것은 필자가 속해있는 오픈채팅방을 일컫는 말이다. 대충 이런 방 기본적으로 채팅방의 관리자가 매일 오전에 전날 혹은 당일의 IT뉴스, 시사뉴스, 각 신문사 헤드라인 등의 정보를 제공해주며 참가자들도 언제든 공유하고 싶은 뉴스를 올려 공유할 수 있다. 감사하게도 매일 뉴스를 올려주시는 기존 관리자님 덕분에 뉴스를 1분도 안 보는 내가 완전한 시사 무식쟁이가 되지 않을 수 있었으니 그 은혜가 참으로 크다 하겠다. 마침 기존 관리자분이 새 관리자를 구한다고 하셔서 그간의 은혜를 보은하고자 관리자를 이어받으려 하였으나, 아뿔싸! ..
2020.06.09