인공지능

GPT 기반 재무제표 요약 투자 -GPT-4, LangChain, OCR

aiproductmanager 2025. 6. 7. 10:06
728x90
반응형
 
 

 

"GPT 기반 재무제표 요약 투자"는 GPT-4와 같은 대형 언어모델(LLM)을 활용해 재무제표에서 핵심 투자 정보를 자동 추출·요약하고, 이를 기반으로 의사결정 또는 퀀트 모델과 연동하여 투자 전략을 수립하는 방식입니다. 특히 LangChain + OCR 연동을 통해 PDF/이미지 기반의 자료도 분석할 수 있게 됩니다.


📌 1. 개요 요약

구성 요소 설명
GPT-4 기업 재무제표의 비정형 텍스트 분석, 요약, 위험 분석
LangChain 문서 분할, 질문 응답 체인 구축, 다양한 소스 통합
OCR PDF/스캔 이미지 형태의 재무제표를 텍스트로 변환
Pinecone/FAISS 재무제표 임베딩 기반 벡터 검색 (하이라이트 요약)
결과 활용 AI 요약 + 팩터 추출 → 가치주 판단 or 리스크 경고
 

🧠 2. 주요 적용 프로세스

graph LR
A[PDF 재무제표] --> B[OCR로 텍스트 변환]
B --> C[LangChain 문단 분리]
C --> D[GPT-4 요약/질문 응답]
D --> E[요약된 재무 정보 / 리스크 항목 / 성장 포인트]
E --> F[투자 전략 판단 (Buy/Sell/Watch)]

🔍 3. GPT 재무제표 요약의 핵심 기능

기능 설명
📄 손익계산서/재무상태표 요약 GPT가 자연어로 요약: "총매출 증가, 순이익 감소, 단기부채 증가 추세"
⚠️ 위험 탐지 부채비율 급증, 영업활동현금흐름 적자 등 리스크 항목 강조
📈 성장 요인 "고마진 부문 매출비중 증가", "해외 매출 성장률 45%" 등 긍정 시그널 추출
📋 팩터 추출 GPT가 PER, ROE 등 추출 → 팩터 점수로 활용 가능
🧠 질의응답 기반 분석 "이 회사의 2023년 ROE 추이는?" / "유동성 위험이 있나?" 등에 답변 가능
 

💡 4. 예시 프롬프트 (LangChain + GPT-4)

prompt = """
너는 재무제표 분석에 특화된 투자 전문가야.
다음 손익계산서를 보고 핵심 요약, 위험요소, 성장가능성, 투자 판단을 항목별로 정리해줘:

[입력된 OCR 텍스트 or PDF에서 추출된 손익계산서]
"""

🧪 5. 실전 활용 구조 (LangChain 기반 Python 코드 요약)

from langchain.document_loaders import PyPDFLoader
from langchain.chains import AnalyzeDocumentChain
from langchain.chat_models import ChatOpenAI

# GPT-4 모델
llm = ChatOpenAI(model_name="gpt-4")

# PDF 로딩 및 텍스트 추출
loader = PyPDFLoader("삼성전자_재무제표_2023.pdf")
pages = loader.load_and_split()

# 요약 체인 구성
summary_chain = AnalyzeDocumentChain(combine_docs_chain=llm)
summary = summary_chain.run(input_document=pages[0])
print(summary)

📈 6. 투자 전략으로 확장 가능

연동 요소 설명
✅ GPT 요약 + 계량 팩터 추출 ROE/PER 등 수치 추출 후 AI 팩터모델 입력으로 활용
✅ 위험경고 필터 GPT가 “유동성 위험 있음” → 종목 제외 필터
✅ Streamlit 대시보드 투자자에게 자동 요약 리포트 제공 (보고서 생성)
✅ 백테스트 연동 GPT 요약기반 가치주 선정 → 수익률 추적
 

📌 활용 예시

기업 GPT 요약
삼성전자 "반도체 부문에서 15% 매출 감소, 하지만 모바일 부문 이익률은 상승. 재고 증가로 리스크 존재."
현대차 "영업이익률 개선, 해외시장 점유율 증가, 전기차 부문 투자 확대."
 

✅ 확장 가능 방향

  • 📊 AI 자동 요약 + 수치 기반 가치 판단 대시보드
  • 📁 여러 분기/년간 재무제표 비교 분석
  • 📤 투자 보고서 자동 생성 (PDF/HTML)
  • 🧾 감사의견/주석까지 요약 (비정형 정보 통합)

 👉 OCR 포함한 전체 파이프라인 코드,

Streamlit 기반 AI 재무제표 리포트 대시보드.

 

# 📊 GPT + OCR 기반 재무제표 분석 파이프라인 (LangChain 기반)

## 1️⃣ 설치 패키지
```bash
pip install pytesseract langchain openai pillow PyMuPDF
```

### ▶ OCR 도구 설치 (Tesseract)
- Windows: https://github.com/tesseract-ocr/tesseract
- MacOS: `brew install tesseract`

---

## 2️⃣ PDF → 텍스트 OCR + GPT 요약 전체 코드

```python
import pytesseract
from PIL import Image
import fitz  # PyMuPDF
from langchain.chat_models import ChatOpenAI
from langchain.chains import AnalyzeDocumentChain

# OpenAI GPT-4 연결
llm = ChatOpenAI(model_name="gpt-4")

# PDF → 이미지 → 텍스트 추출 (OCR)
def extract_text_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    text_blocks = []
    for page in doc:
        pix = page.get_pixmap()
        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
        ocr_text = pytesseract.image_to_string(img, lang='eng')
        text_blocks.append(ocr_text)
    return "\n".join(text_blocks)

# GPT 요약 실행
def summarize_financial_text(text):
    prompt = f"""
    너는 재무제표 분석에 특화된 투자 전문가야.
    다음 재무제표를 요약해줘:
    - 핵심 재무 성과 요약
    - 위험요소
    - 성장가능성
    - 투자판단

    재무제표 내용:
    {text}
    """
    result = llm.predict(prompt)
    return result

# 실행
pdf_file = "삼성전자_2023_재무제표.pdf"
ocr_text = extract_text_from_pdf(pdf_file)
summary = summarize_financial_text(ocr_text)
print(summary)
```

---

## 3️⃣ 기대 출력 예시
```
📄 핵심 요약:
- 매출 15% 증가, 순이익은 5% 감소
- 반도체 부문 적자 지속, 모바일 부문 이익 회복

⚠️ 위험요소:
- 재고 증가, 환율 리스크 확대

📈 성장 가능성:
- 전장용 반도체 매출 증가, 전기차 시장 확대 대응

💡 투자 판단:
- 단기 조정 가능성 있으나 장기적 성장 가능성 보유
```

---

## ✅ 확장 가능
- [ ] 여러 PDF 자동 처리 → 요약 저장
- [ ] GPT 임베딩 기반 비교 분석 (과거 vs 현재)
- [ ] Streamlit으로 대시보드 시각화

# 📊 GPT + OCR 기반 재무제표 분석 파이프라인 (LangChain + Streamlit)

## 1️⃣ 설치 패키지
```bash
pip install pytesseract langchain openai pillow PyMuPDF streamlit
```

### ▶ OCR 도구 설치 (Tesseract)
- Windows: https://github.com/tesseract-ocr/tesseract
- MacOS: `brew install tesseract`

---

## 2️⃣ `app.py` – Streamlit 기반 전체 코드

```python
import streamlit as st
import pytesseract
from PIL import Image
import fitz  # PyMuPDF
from langchain.chat_models import ChatOpenAI

# GPT 모델 초기화
llm = ChatOpenAI(model_name="gpt-4")

# OCR 함수
def extract_text_from_pdf(pdf_file):
    doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
    texts = []
    for page in doc:
        pix = page.get_pixmap()
        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
        text = pytesseract.image_to_string(img, lang='eng')
        texts.append(text)
    return "\n".join(texts)

# GPT 요약 함수
def summarize_text(text):
    prompt = f"""
    너는 재무제표 분석 전문가야. 아래 텍스트를 요약해줘:
    - 핵심 재무 성과
    - 위험 요소
    - 성장 가능성
    - 투자 판단

    텍스트:
    {text}
    """
    return llm.predict(prompt)

# Streamlit UI
st.title("📄 AI 재무제표 요약 리포트")
st.write("PDF 파일을 업로드하면, GPT가 재무제표를 요약해 드립니다.")

pdf_file = st.file_uploader("재무제표 PDF 업로드", type=["pdf"])
if pdf_file is not None:
    with st.spinner("🔍 OCR 분석 중..."):
        ocr_text = extract_text_from_pdf(pdf_file)

    with st.spinner("🤖 GPT 요약 중..."):
        summary = summarize_text(ocr_text)

    st.success("✅ 분석 완료!")
    st.subheader("요약 결과")
    st.text_area("📘 GPT 요약 결과", summary, height=400)
```

---

## 3️⃣ 실행 방법
```bash
streamlit run app.py
```

---

✅ Streamlit 기반 AI 재무제표 리포트 대시보드가 추가되었습니다.

이제 PDF 재무제표를 업로드하면:

  • OCR → 텍스트 추출
  • GPT-4 → 자동 요약 (성과, 리스크, 성장성, 투자 판단)
  • 웹에서 결과 확인 가능

📌 실행 명령어:

 
streamlit run app.py

필요하시면 다음도 연동 가능합니다:

  • 📁 PDF 자동 저장
  • 📊 다중 기업 비교 대시보드
  • 📨 Slack/Telegram 경고 시스템
순위 AI 투자 방안 이름 활용 기술 상세 바로가기
1 AI 퀀트 포트폴리오 최적화 Markowitz, RL, MPT, AI 최적화 바로가기
2 감정 분석 기반 뉴스 트레이딩 NLP, BERT, LLM 바로가기
3 AI ETF 자동 리밸런싱 AutoML, Alpha Vantage API 바로가기
4 머신러닝 기반 주가 예측 XGBoost, LightGBM 바로가기
5 딥러닝 LSTM 시계열 예측 TensorFlow, PyTorch LSTM 바로가기
6 강화학습 기반 자동 매매 OpenAI Gym, PPO, DQN 바로가기
7 AI 기반 가치주 선별 (Value Factor) AI 팩터스코어링, 계량모델 바로가기
8 GPT 기반 재무제표 요약 투자 GPT-4, LangChain, OCR 바로가기
9 AI 리스크 해지 전략 (VIX, 금리, 환율) AI 헷지백테스트, 시나리오 모델 바로가기
10 SVM 기반 종목 필터링 SVM + 재무데이터 바로가기
11 AI IPO 스코어링 모델 AI 점수화 + IPO 성과예측 바로가기
12 챗봇 기반 투자 자문 시스템 LLM + Chat UI + API 연결 바로가기
13 XGBoost 기반 이벤트 드리븐 트레이딩 XGBoost + 뉴스 이벤트 바로가기
14 AutoML 기반 알고리즘 전략 탐색 TPOT, H2O.ai, FeatureTools 바로가기
15 AI 기반 ESG 점수 분석 투자 AI ESG 분석 + ETF 필터링 바로가기
16 옵션 가격 예측 딥러닝 모델 DNN, OptionNet, VolNet 바로가기
17 고빈도 트레이딩용 AI 패턴 인식 CNN, 딥러닝 패턴 분석 바로가기
18 AI 기반 섹터 로테이션 모델 순환분류 + 군집분석 바로가기
19 LLM 기반 글로벌 투자 리서치 요약 GPT + PDF 요약 + 질의응답 바로가기
20 AI + Satellite Data 기반 농산물 투자 AI + 위성데이터 + 시계열학습 바로가기

 

이 글이 도움이 되었다면,아래 링크를 통해서 후원해주세요.( 커피나 차 한잔 이나 맥주나 와인한잔 )

 

728x90
반응형