GPT 기반 재무제표 요약 투자 -GPT-4, LangChain, OCR
"GPT 기반 재무제표 요약 투자"는 GPT-4와 같은 대형 언어모델(LLM)을 활용해 재무제표에서 핵심 투자 정보를 자동 추출·요약하고, 이를 기반으로 의사결정 또는 퀀트 모델과 연동하여 투자 전략을 수립하는 방식입니다. 특히 LangChain + OCR 연동을 통해 PDF/이미지 기반의 자료도 분석할 수 있게 됩니다.
📌 1. 개요 요약
구성 요소 | 설명 |
GPT-4 | 기업 재무제표의 비정형 텍스트 분석, 요약, 위험 분석 |
LangChain | 문서 분할, 질문 응답 체인 구축, 다양한 소스 통합 |
OCR | PDF/스캔 이미지 형태의 재무제표를 텍스트로 변환 |
Pinecone/FAISS | 재무제표 임베딩 기반 벡터 검색 (하이라이트 요약) |
결과 활용 | AI 요약 + 팩터 추출 → 가치주 판단 or 리스크 경고 |
🧠 2. 주요 적용 프로세스
A[PDF 재무제표] --> B[OCR로 텍스트 변환]
B --> C[LangChain 문단 분리]
C --> D[GPT-4 요약/질문 응답]
D --> E[요약된 재무 정보 / 리스크 항목 / 성장 포인트]
E --> F[투자 전략 판단 (Buy/Sell/Watch)]
🔍 3. GPT 재무제표 요약의 핵심 기능
기능 | 설명 |
📄 손익계산서/재무상태표 요약 | GPT가 자연어로 요약: "총매출 증가, 순이익 감소, 단기부채 증가 추세" |
⚠️ 위험 탐지 | 부채비율 급증, 영업활동현금흐름 적자 등 리스크 항목 강조 |
📈 성장 요인 | "고마진 부문 매출비중 증가", "해외 매출 성장률 45%" 등 긍정 시그널 추출 |
📋 팩터 추출 | GPT가 PER, ROE 등 추출 → 팩터 점수로 활용 가능 |
🧠 질의응답 기반 분석 | "이 회사의 2023년 ROE 추이는?" / "유동성 위험이 있나?" 등에 답변 가능 |
💡 4. 예시 프롬프트 (LangChain + GPT-4)
너는 재무제표 분석에 특화된 투자 전문가야.
다음 손익계산서를 보고 핵심 요약, 위험요소, 성장가능성, 투자 판단을 항목별로 정리해줘:
[입력된 OCR 텍스트 or PDF에서 추출된 손익계산서]
"""
🧪 5. 실전 활용 구조 (LangChain 기반 Python 코드 요약)
from langchain.chains import AnalyzeDocumentChain
from langchain.chat_models import ChatOpenAI
# GPT-4 모델
llm = ChatOpenAI(model_name="gpt-4")
# PDF 로딩 및 텍스트 추출
loader = PyPDFLoader("삼성전자_재무제표_2023.pdf")
pages = loader.load_and_split()
# 요약 체인 구성
summary_chain = AnalyzeDocumentChain(combine_docs_chain=llm)
summary = summary_chain.run(input_document=pages[0])
print(summary)
📈 6. 투자 전략으로 확장 가능
연동 요소 | 설명 |
✅ GPT 요약 + 계량 팩터 추출 | ROE/PER 등 수치 추출 후 AI 팩터모델 입력으로 활용 |
✅ 위험경고 필터 | GPT가 “유동성 위험 있음” → 종목 제외 필터 |
✅ Streamlit 대시보드 | 투자자에게 자동 요약 리포트 제공 (보고서 생성) |
✅ 백테스트 연동 | GPT 요약기반 가치주 선정 → 수익률 추적 |
📌 활용 예시
기업 | GPT 요약 |
삼성전자 | "반도체 부문에서 15% 매출 감소, 하지만 모바일 부문 이익률은 상승. 재고 증가로 리스크 존재." |
현대차 | "영업이익률 개선, 해외시장 점유율 증가, 전기차 부문 투자 확대." |
✅ 확장 가능 방향
- 📊 AI 자동 요약 + 수치 기반 가치 판단 대시보드
- 📁 여러 분기/년간 재무제표 비교 분석
- 📤 투자 보고서 자동 생성 (PDF/HTML)
- 🧾 감사의견/주석까지 요약 (비정형 정보 통합)
👉 OCR 포함한 전체 파이프라인 코드,
Streamlit 기반 AI 재무제표 리포트 대시보드.
# 📊 GPT + OCR 기반 재무제표 분석 파이프라인 (LangChain 기반)
## 1️⃣ 설치 패키지
```bash
pip install pytesseract langchain openai pillow PyMuPDF
```
### ▶ OCR 도구 설치 (Tesseract)
- Windows: https://github.com/tesseract-ocr/tesseract
- MacOS: `brew install tesseract`
---
## 2️⃣ PDF → 텍스트 OCR + GPT 요약 전체 코드
```python
import pytesseract
from PIL import Image
import fitz # PyMuPDF
from langchain.chat_models import ChatOpenAI
from langchain.chains import AnalyzeDocumentChain
# OpenAI GPT-4 연결
llm = ChatOpenAI(model_name="gpt-4")
# PDF → 이미지 → 텍스트 추출 (OCR)
def extract_text_from_pdf(pdf_path):
doc = fitz.open(pdf_path)
text_blocks = []
for page in doc:
pix = page.get_pixmap()
img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
ocr_text = pytesseract.image_to_string(img, lang='eng')
text_blocks.append(ocr_text)
return "\n".join(text_blocks)
# GPT 요약 실행
def summarize_financial_text(text):
prompt = f"""
너는 재무제표 분석에 특화된 투자 전문가야.
다음 재무제표를 요약해줘:
- 핵심 재무 성과 요약
- 위험요소
- 성장가능성
- 투자판단
재무제표 내용:
{text}
"""
result = llm.predict(prompt)
return result
# 실행
pdf_file = "삼성전자_2023_재무제표.pdf"
ocr_text = extract_text_from_pdf(pdf_file)
summary = summarize_financial_text(ocr_text)
print(summary)
```
---
## 3️⃣ 기대 출력 예시
```
📄 핵심 요약:
- 매출 15% 증가, 순이익은 5% 감소
- 반도체 부문 적자 지속, 모바일 부문 이익 회복
⚠️ 위험요소:
- 재고 증가, 환율 리스크 확대
📈 성장 가능성:
- 전장용 반도체 매출 증가, 전기차 시장 확대 대응
💡 투자 판단:
- 단기 조정 가능성 있으나 장기적 성장 가능성 보유
```
---
## ✅ 확장 가능
- [ ] 여러 PDF 자동 처리 → 요약 저장
- [ ] GPT 임베딩 기반 비교 분석 (과거 vs 현재)
- [ ] Streamlit으로 대시보드 시각화
# 📊 GPT + OCR 기반 재무제표 분석 파이프라인 (LangChain + Streamlit)
## 1️⃣ 설치 패키지
```bash
pip install pytesseract langchain openai pillow PyMuPDF streamlit
```
### ▶ OCR 도구 설치 (Tesseract)
- Windows: https://github.com/tesseract-ocr/tesseract
- MacOS: `brew install tesseract`
---
## 2️⃣ `app.py` – Streamlit 기반 전체 코드
```python
import streamlit as st
import pytesseract
from PIL import Image
import fitz # PyMuPDF
from langchain.chat_models import ChatOpenAI
# GPT 모델 초기화
llm = ChatOpenAI(model_name="gpt-4")
# OCR 함수
def extract_text_from_pdf(pdf_file):
doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
texts = []
for page in doc:
pix = page.get_pixmap()
img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
text = pytesseract.image_to_string(img, lang='eng')
texts.append(text)
return "\n".join(texts)
# GPT 요약 함수
def summarize_text(text):
prompt = f"""
너는 재무제표 분석 전문가야. 아래 텍스트를 요약해줘:
- 핵심 재무 성과
- 위험 요소
- 성장 가능성
- 투자 판단
텍스트:
{text}
"""
return llm.predict(prompt)
# Streamlit UI
st.title("📄 AI 재무제표 요약 리포트")
st.write("PDF 파일을 업로드하면, GPT가 재무제표를 요약해 드립니다.")
pdf_file = st.file_uploader("재무제표 PDF 업로드", type=["pdf"])
if pdf_file is not None:
with st.spinner("🔍 OCR 분석 중..."):
ocr_text = extract_text_from_pdf(pdf_file)
with st.spinner("🤖 GPT 요약 중..."):
summary = summarize_text(ocr_text)
st.success("✅ 분석 완료!")
st.subheader("요약 결과")
st.text_area("📘 GPT 요약 결과", summary, height=400)
```
---
## 3️⃣ 실행 방법
```bash
streamlit run app.py
```
---
✅ Streamlit 기반 AI 재무제표 리포트 대시보드가 추가되었습니다.
이제 PDF 재무제표를 업로드하면:
- OCR → 텍스트 추출
- GPT-4 → 자동 요약 (성과, 리스크, 성장성, 투자 판단)
- 웹에서 결과 확인 가능
📌 실행 명령어:
필요하시면 다음도 연동 가능합니다:
- 📁 PDF 자동 저장
- 📊 다중 기업 비교 대시보드
- 📨 Slack/Telegram 경고 시스템
순위 | AI 투자 방안 이름 | 활용 기술 | 상세 바로가기 |
---|---|---|---|
1 | AI 퀀트 포트폴리오 최적화 | Markowitz, RL, MPT, AI 최적화 | 바로가기 |
2 | 감정 분석 기반 뉴스 트레이딩 | NLP, BERT, LLM | 바로가기 |
3 | AI ETF 자동 리밸런싱 | AutoML, Alpha Vantage API | 바로가기 |
4 | 머신러닝 기반 주가 예측 | XGBoost, LightGBM | 바로가기 |
5 | 딥러닝 LSTM 시계열 예측 | TensorFlow, PyTorch LSTM | 바로가기 |
6 | 강화학습 기반 자동 매매 | OpenAI Gym, PPO, DQN | 바로가기 |
7 | AI 기반 가치주 선별 (Value Factor) | AI 팩터스코어링, 계량모델 | 바로가기 |
8 | GPT 기반 재무제표 요약 투자 | GPT-4, LangChain, OCR | 바로가기 |
9 | AI 리스크 해지 전략 (VIX, 금리, 환율) | AI 헷지백테스트, 시나리오 모델 | 바로가기 |
10 | SVM 기반 종목 필터링 | SVM + 재무데이터 | 바로가기 |
11 | AI IPO 스코어링 모델 | AI 점수화 + IPO 성과예측 | 바로가기 |
12 | 챗봇 기반 투자 자문 시스템 | LLM + Chat UI + API 연결 | 바로가기 |
13 | XGBoost 기반 이벤트 드리븐 트레이딩 | XGBoost + 뉴스 이벤트 | 바로가기 |
14 | AutoML 기반 알고리즘 전략 탐색 | TPOT, H2O.ai, FeatureTools | 바로가기 |
15 | AI 기반 ESG 점수 분석 투자 | AI ESG 분석 + ETF 필터링 | 바로가기 |
16 | 옵션 가격 예측 딥러닝 모델 | DNN, OptionNet, VolNet | 바로가기 |
17 | 고빈도 트레이딩용 AI 패턴 인식 | CNN, 딥러닝 패턴 분석 | 바로가기 |
18 | AI 기반 섹터 로테이션 모델 | 순환분류 + 군집분석 | 바로가기 |
19 | LLM 기반 글로벌 투자 리서치 요약 | GPT + PDF 요약 + 질의응답 | 바로가기 |
20 | AI + Satellite Data 기반 농산물 투자 | AI + 위성데이터 + 시계열학습 | 바로가기 |
이 글이 도움이 되었다면,아래 링크를 통해서 후원해주세요.( 커피나 차 한잔 이나 맥주나 와인한잔 )