데이터분석 39

[29일차] ABC 부트캠프 기술나눔활동

오늘은 기술 나눔 활동을 진행하였다. 기술 나눔 활동에는 두 가지가 있었다. 데이터 라벨링, 고경력자의 생성형 AI 수업 보조가 있었다. 나는 고경력자의 생성형 AI 수업을 보조하는 활동에 참여하였다. 생성형 AI에 대한 내용들을 은퇴하신 고경력자분들께 알려드리는 수업의 보조를 하는 활동은 정말 많은 것들을 얻어갈 수 있을 것 같았다. 인맥이면 인맥, 고경력자가 경험해온 시간들을 간접적으로 느끼고, 그들의 삶을 엿들을 수 있었던 값진 시간이었다.한 분야에서 이름을 떨치셨던 분들의 이야기를 들으니 원동력이 되었고, 강한 동기부여가 되었다. 추가로 전문적인 지식들까지 알게되어서 값진 시간이었다. 연세가 있으시지만, 배우고자 하는 의지를 배울 수 있었고, 고경력자분들의 질문 수준을 보면서 감탄하고, 나도 나중..

[28일차] ABC 부트캠프 Transformer 모델을 이용한 자연어 처리(NLP)

0. 자연어 처리자연어는 사람들이 일상적으로 사용하는 언어로, 인공어와 구분된다. 자연어를 컴퓨터가 이해하고 처리할 수 있도록 여러 단계의 과정이 필요하다. 이 과정들을 하나씩 살펴보자.1. 자연어 처리 과정텍스트 사전 처리텍스트 사전 처리는 원시 텍스트 데이터를 분석하기 전에 깨끗하고 구조화된 형태로 변환하는 과정이다. 주요 단계로는 토큰화, 불용어 제거, 정규화, 어간 추출 및 표제어 추출이 있다.토큰화: 텍스트를 문장이나 단어 단위로 분리한다.불용어 제거: 분석에 필요하지 않은 자주 사용되는 단어들(예: "the", "and")을 제거한다.정규화: 단어를 표준 형태로 변환한다. 예를 들어 대문자를 소문자로 변환하거나, 동사의 시제를 통일한다.어간 추출 및 표제어 추출: 단어의 기본 형태로 변환하여 ..

[27일차] ABC 부트캠프 NVIDIA 교육과정1 (딥러닝기초)

1. 데이터 증강데이터 증강은 기계 학습, 특히 딥러닝 모델에서 성능을 개선하기 위해 사용되는 기법이다. 데이터 증강은 원본 데이터셋의 크기를 인위적으로 늘리는 방법으로, 데이터가 부족한 상황에서 모델이 더 다양한 데이터를 학습할 수 있도록 돕는다. 이는 모델의 일반화 능력을 향상시키고, 오버피팅을 줄이는 데 중요한 역할을 한다. 이미지 데이터를 포함한 각각의 데이터들을 증강하는 방법은 여러가지가 있지만, 이번 수업에서 배운 이미지 증강에는 아래의 방법이 사용된다.회전 (Rotation): 이미지를 일정 각도만큼 회전시킨다.수평/수직 반전 (Horizontal/Vertical Flip): 이미지를 좌우 또는 상하로 반전시킨다.크기 조절 (Scaling): 이미지를 확대하거나 축소한다.이동 (Transla..

[26일차] ABC 부트캠프 미니 프로젝트 발표회

저번 게시물에 이어 프로젝트를 준비하는 시간을 가졌고, 프로젝트 발표회까지 했다.폐기물 발생량과 온실가스 배출량과의 상관관계 분석을 시작으로, 상관계수를 확인한 뒤 지구온난화의 심각성과 지구 온난화에 대비하는 기업의 ESG 경영을 권장하는 주제로 미니 프로젝트를 진행하였다.  폐기물 발생량과 온실가스 배출량을 상관관계 분석하는 코드는 지난 게시물에 올려놓았고, 같은 조원들이 CO2 배출량, 온실가스 배출량 데이터를 기반으로 예측할 수 있는 모델을 구축하였다. 이번 모델에서는 ARIMA라는 모델을 사용하였고, Tensorflow 혹은 Keras의 모델이 아닌 StatsModel 라이브러리를 사용하여 예측하였다. StatsModel의 ARIMA는 시계열 데이터(시간)을 학습하고 예측하는 데 유리한 모델이다...

[25일차] ABC 부트캠프 미니 프로젝트

0. 들어가기 앞서인공지능 관련 수업이 얼추 진행되었다. 지금까지 배운 내용들을 토대로 미니 프로젝트를 진행하였다. 1. 주제 선정 발표미니 프로젝트 주제를 선정하여 해당 주제에 대한 발표를 진행하였다. 우리 조는 폐기물 발생량과 온실가스 배출량 분석을 통한 지속 가능한 삶 제안이라는 주제로 이번 프로젝트를 진행하려한다.폐기물이 발생하고 폐기물을 처리하는 과정을 자세히 살펴보면, 소각과 매립이 주를 이루고 있다. 그렇기 때문에 해당 과정에서 발생하는 온실가스 배출량을 확인한다. 상관관계 분석을 진행하고, 온실가스가 지구온난화를 가속화 시킨다는 것과, 지구 온난화로 인한 이상기후들에 대한 데이터들을 분석하고 예측하여, 지금처럼 폐기물이 발생된다면 머지 않아 환경을 악화시킬 수 있다는 것을 보여줄 예정이다...

[24일차] ABC 부트캠프 FNN, RNN, LSTM

1. FNNFNN(Feedforward Neural Network)란, 입력값이 출력까지 한 방향으로 전달되는 구조를 가진 인공 신경망이다. 이 구조 때문에 'feedforward'라는 이름이 붙었으며, 데이터가 신경망의 입력층에서 출력층까지 단방향으로 이동하므로 순환 또는 피드백이 없다. 이러한 특징으로 인해 FNN은 시계열 데이터와 같은 연속적인 정보를 처리하는 데 한계가 있다.위와 같이 RNN과 달리 단방향성을 가진다. FNN은 인공 신경망의 기본적인 형태로, 다수의 입력 노드와 가중치, 활성화 함수를 통해 출력 노드로 정보를 전달한다. 이때 가중치는 학습 과정에서 업데이트되며, 초기 가중치는 보통 무작위로 결정된다. FNN은 다층 퍼셉트론이라고도 불리며, 은닉층이 하나 이상인 인공 신경망을 말한다..

[23일차] ABC 부트캠프 딥러닝과 CNN

1. 딥러닝 개요1-1. 딥러닝 라이브러리 (Keras)딥러닝에 주로 사용되는 라이브러리인 Keras의 중요한 요소들을 살펴보자.- 모델 (Model)* 순차 모델(Sequential)을 비롯한 다양한 모델들이 존재한다. 이번 교육과정에서는 순차 모델을 주로 다루니 순차 모델에 대해서 자세히 알아보자.compile(optimizer, loss, metrics): 훈련을 위해서 모델을 구성하는 메소드fit(x, y, epochs, batch_size, verbose): 모델 훈련 메서드evaluate(x, y): 테스트 모드에서 모델의 손실 함수 값과 측정 항목 값을 반환predict(x, batch_size): 입력 샘플에 대한 예측값 생성add(layer): 레이어 모델에 추가한다- 레이어 (Layer..

[22일차] ABC 부트캠프 인공신경망, MLP

1. 인공 신경망신경망: 생물학적인 신경망에서 영감을 받아서 만들어진 컴퓨팅 구조 인간의 두뇌컴퓨터처리 소자의 개수10의 10제곱개의 뉴런10의 8제곱개의 트랜지스터처리 소자의 속도10의 제곱Hz10의12제곱 Hz학습 기능유무계산 스타일분산 병렬 처리중앙집중식, 순차적 처리단순한 필기체와 같은 이미지들은 식별이 쉽지만, 다채로운 색상의 그림은 식별하기 어렵다.  2. MLP (Multi Layer Perceptron)2-1. 퍼셉트론(Perceptron)1957년 로젠 블라트가 고안한 인공신경망, 입력층에 임의의 벡터가 들어 오면, 서로 연결된 특징값과 가중치를 곱한 결과를 모두 더한다. 이렇게 얻은 값을 활성화 함수에 입력으로 넣고 계산한다. 활성화 함수의 출력이 퍼셉트론의 최종 출력이 되는데, 1 또..

[21일차] ABC 부트캠프 ESG포럼 & 세미나

이강산 사진 작가님께서 설명해주신 '나는 나다'라는 강의는 그동안 이강산 작가님께서 경험하신 일들을 간접적으로 경험하였다. 이강산 작가님께서는 4년간 여인숙을 돌아다니시면서 만나셨던 다양한 사람들에 대한 이야기를 해주셨다. 이강산 작가님께서 1년간 노력하신 결과물로 그 사람을 사진에 담았다는 사실도 굉장히 놀라웠고, 사람의 마음을 여는 것도 굉장히 어렵다고 생각했는데 어떻게 하면 이강산 작가님처럼 사람의 마음을 움직일 수 있을지 고민도 해보았다. 그렇게  고민해도 답이 나오지 않았기에 질문드려보았다. 그러자 작가님께서는 정성과 간절함이라고 말씀해주셨다. 지금까지는 그러한 상황이 오지 않았기에 이해할 수 없었지만, 나중에라도 이 말씀이 공감이 될 날이 올 것이라 믿는다. 대전대학교 건축학과 최기원 교수님의..

[20일차] ABC 부트캠프 분류(Classification)와 K-NN알고리

1. 분류(Classification) 알고리즘머신러닝 중 분류 기술은 지도학습 중 하나이다. 제공된 데이터를 학습하고, 학습된 모델은 데이터들을 분류한다. 분류 알고리즘 중 가장 대표적인 k-NN 알고리즘에 대해 알아보자.  k-NN(k-Nearest Neighbors) 알고리즘k 최근접 이웃 알고리즘은 기준점 주변의 데이터들을 바탕으로 값이 결정된다. 먼저 범위(k)를 정해주고, 범위 내에 있는 데이터가 어떤 클래스인지에 따라 기준점의 데이터의 클래스가 결정된다.만약 k가 3이라고 가정했다면,  빈 네모는 붉은 별로 분류된다. 하지만 반대로 k값이 증가함에 따라 데이터의 개수가 아래의 그림과 같아진다면 빈 네모는 파란 원이 된다.이렇게 주위의 데이터들 바탕으로 값이 결정되기 때문에 최근접 이웃이라고 ..