본문 바로가기

728x90

인공지능330

DROP (Discrete Reasoning Over Paragraphs)**는 자연어 처리(NLP) 모델의 추론 능력을 평가하기 위해 설계된 벤치마크 **DROP (Discrete Reasoning Over Paragraphs)**는 자연어 처리(NLP) 모델의 추론 능력을 평가하기 위해 설계된 벤치마크입니다. 특히, 모델이 단락을 읽고 그에 기반하여 복잡한 이산적(reasoning) 작업(예: 계산, 논리적 추론 등)을 수행할 수 있는지를 테스트합니다.DROP의 주요 특징이산적 추론 중심:일반적인 질문 답변 태스크보다 더 복잡한 이산적 추론을 요구.예: 날짜 계산, 숫자 비교, 다단계 추론.데이터셋 구조:단락(Paragraph): 하나 이상의 질문이 관련된 텍스트로 구성.질문(Question): 주어진 단락을 기반으로 복잡한 논리적 사고를 요구.답변(Answer): 숫자, 날짜, 특정 텍스트 등 다양한 형식으로 제공.평가 방식 (F1 Score):모.. 2025. 1. 4.

MMLU-Pro는 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크 MMLU-Pro는 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크입니다. arXiv주요 특징:복잡한 질문 구성: MMLU-Pro는 다양한 분야에 걸쳐 총 12,000개의 복잡한 질문을 포함하고 있습니다. 허깅페이스선택지 확대: 각 질문마다 선택지를 기존 4개에서 10개로 늘려, 무작위 추측에 의한 정답 확률을 낮추고 평가의 정확성을 높였습니다. arXiv추론 중심의 질문 추가: 지식 기반의 질문뿐만 아니라, 모델의 추론 능력을 평가하기 위한 복잡한 질문을 포함하여 모델의 종합적인 이해력과 문제 해결 능력을 테스트합니다. arXiv안정성 향상: 다양한 프롬프트 스타일에 대한 모델의 성능 변동성을 줄여, 평가 결과의 신뢰성을 높였습니다. arXiv.. 2025. 1. 4.

MMLU-Redux, LLM의 성능을 평가하기 위한 벤치마크인 MMLU(Massive Multitask Language Understanding)의 신뢰성과 정확성을 향상 MMLU-Redux는 대규모 언어 모델(LLM)의 성능을 평가하기 위한 벤치마크인 MMLU(Massive Multitask Language Understanding)의 신뢰성과 정확성을 향상시키기 위해 개발된 재구성된 데이터셋입니다. arXiv주요 특징:데이터셋 재구성: MMLU-Redux는 MMLU의 30개 주제에서 각 100개의 질문을 무작위로 선택하여 총 3,000개의 질문을 포함하고 있습니다. 이 질문들은 전문가에 의해 재검토되고 주석이 추가되어, 원본 데이터셋에서 발견된 오류를 수정하고 정확성을 높였습니다. GitHub오류 분석 및 분류: 연구팀은 MMLU 데이터셋에서 다양한 오류를 식별하고 분석하기 위해 새로운 오류 분류 체계를 도입했습니다. 이를 통해 데이터셋의 품질을 향상시키고, 언어 모델.. 2025. 1. 4.

MMLU (Massive Multitask Language Understanding) **MMLU (Massive Multitask Language Understanding)**는 AI 언어 모델의 성능을 평가하기 위해 설계된 벤치마크입니다. 이 벤치마크는 다양한 주제와 난이도에서 AI 모델의 언어 이해 능력을 측정하는 데 초점을 맞추고 있습니다.MMLU의 주요 특징다양한 도메인:MMLU는 57개 도메인에서의 문제를 포함하며, 각 도메인은 학문적 및 실제 응용 분야를 아우릅니다.주제 예시: 역사, 생물학, 컴퓨터 과학, 수학, 법률, 의학 등.난이도별 문제 구성:고등학교 수준에서 대학 및 전문가 수준까지 다양한 난이도의 문제를 포함.언어 모델이 복잡한 주제와 고난도의 개념을 이해할 수 있는지 평가.다중 선택 형식:각 문제는 4개의 선택지가 있는 다중 선택(Multiple Choice) 형.. 2025. 1. 4.

Ideogram.ai(캐), 텍스트 를 이미지 인공지능(AI) https://ideogram.ai/ Ideogram.ai는 캐나다에 기반을 둔 스타트업 Ideogram Inc.에서 개발한 인공지능(AI) 이미지 생성 플랫폼입니다. 이 회사는 2022년에 설립되었으며, 주요 설립자로는 Mohammad Norouzi, William Chan, Chitwan Saharia, Jonathan Ho 등이 있습니다. 위키백과2023년 8월 22일에 첫 번째 모델을 출시한 이후, 2024년 8월에는 'Ideogram 2.0' 버전을 선보였습니다. 이 버전은 텍스트 렌더링 기능이 향상되어, 인사말 카드, 티셔츠 디자인, 포스터 등 긴 텍스트와 정확한 텍스트를 포함하는 프리미엄 그래픽 디자인을 생성할 수 있습니다. AI Times또한, Ideogram은 2023년 8월에 Andre.. 2025. 1. 2.

DeepL(독일), 고품질 번역, AI 기반 번역 플랫폼 https://www.deepl.com/ DeepL은 고품질 번역과 언어 처리 서비스를 제공하는 AI 기반 번역 플랫폼입니다. 이 서비스는 빠르고 정확한 번역 능력으로 많은 사용자들에게 사랑받고 있으며, 특히 자연스러운 문장 구조와 맥락을 이해하는 번역으로 유명합니다.주요 특징고품질 번역DeepL은 독점적인 신경망 기반 번역 기술을 활용하여 자연스럽고 문맥에 맞는 번역을 제공합니다.복잡한 문장이나 전문적인 문구도 높은 정확도로 번역이 가능합니다.지원 언어영어, 한국어, 일본어, 독일어, 프랑스어, 스페인어 등 30개 이상의 언어를 지원합니다.언어 간 번역의 정확도가 업계 최고 수준으로 평가받고 있습니다.문서 번역PDF, Word, PowerPoint와 같은 문서를 업로드하면 형식을 유지하면서 번역이 .. 2025. 1. 2.

이전 1 ··· 44 45 46 47 48 49 50 ··· 55 다음

728x90

티스토리툴바