전체 글 144

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위해 개발된 벤치마크인 SWE-bench의 하위 집합입니다. OpenAI는 SWE-bench의 한계를 보완하고 평가의 정확성을 높이기 위해 전문 소프트웨어 개발자들과 협력하여 이 검증된 데이터셋을 출시했습니다. OpenAI주요 특징:검증된 샘플: SWE-bench Verified는 500개의 샘플로 구성되어 있으며, 각 샘플은 인간 주석자에 의해 검토되어 문제가 없는 것으로 확인되었습니다. 이를 통해 평가의 신뢰성과 정확성을 높였습니다. OpenAI평가 방법: 모델은 주어진 코드베이스와 문제 설명을 기반으로 해당 문제를 해결하는 패치를 생성해야 합니다. 생성된 패치는 사전 및 사후의 유닛..

인공지능 04:18:23

Codeforces는 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼

Codeforces는 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼으로, 참가자들은 성과에 따라 레이팅을 부여받습니다. 이 레이팅은 참가자의 실력을 나타내며, 특정 레이팅에 해당하는 백분위수(percentile)를 통해 전체 사용자 중 자신의 위치를 파악할 수 있습니다.주요 레이팅과 백분위수:중앙값 레이팅: 1143점으로, 이는 전체 참가자의 50%가 이 점수 이하에 위치함을 의미합니다.1900점: 상위 6%에 해당하며, 전체 참가자의 94번째 백분위수에 위치합니다.2400점: 상위 0.8%에 해당하며, 전체 참가자의 99.2번째 백분위수에 위치합니다.3000점: 상위 0.07%에 해당하며, 전체 참가자의 99.93번째 백분위수에 위치합니다.또한, 전체 참가자의 약 55%는 'Newbie..

인공지능 04:17:06

LiveCodeBench (Pass@1)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가

LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다. Live Code BenchPass@1는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, 모델의 코드 생성 정확도를 평가하는 데 사용됩니다.주요 특징:데이터 수집: 2023년 5월부터 2024년 8월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다. OpenReview다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다. GitHub평가 범위 확대: 코드 생성뿐만 아니라, 코드 실..

LiveCodeBench (Pass@1-COT)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가

LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다. arXivPass@1-COT는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, Chain-of-Thought(COT) 기법을 활용하여 단계별 추론을 통해 문제를 해결하는 방식을 평가합니다.주요 특징:데이터 수집: 2023년 5월부터 2024년 5월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다. arXiv다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다. GitHub평가 범위..

인공지능 04:12:59

HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가

HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가하기 위해 설계된 벤치마크입니다. 이 벤치마크는 모델이 주어진 수학 문제에 대해 정확하고 효율적인 코드를 생성할 수 있는지를 측정합니다.Pass@1 지표는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타냅니다. 즉, 모델이 주어진 문제에 대해 처음으로 생성한 코드가 모든 테스트 케이스를 통과하여 정답으로 인정받을 확률을 의미합니다.HumanEval-Mul 벤치마크의 주요 특징:다양한 수학 문제: 기본적인 산술 연산부터 복잡한 수학적 개념까지 다양한 범위의 문제를 포함하여 모델의 수학적 이해도를 평가합니다.코드 생성 평가: 모델이 자연어로 주어진 수학 문제를 파이썬(Python) 코드로 변환하여 해결하는 능력을 ..

인공지능 04:11:33

Ideogram.ai(캐), 텍스트 를 이미지 인공지능(AI)

https://ideogram.ai/ Ideogram.ai는 캐나다에 기반을 둔 스타트업 Ideogram Inc.에서 개발한 인공지능(AI) 이미지 생성 플랫폼입니다. 이 회사는 2022년에 설립되었으며, 주요 설립자로는 Mohammad Norouzi, William Chan, Chitwan Saharia, Jonathan Ho 등이 있습니다. 위키백과2023년 8월 22일에 첫 번째 모델을 출시한 이후, 2024년 8월에는 'Ideogram 2.0' 버전을 선보였습니다. 이 버전은 텍스트 렌더링 기능이 향상되어, 인사말 카드, 티셔츠 디자인, 포스터 등 긴 텍스트와 정확한 텍스트를 포함하는 프리미엄 그래픽 디자인을 생성할 수 있습니다. AI Times또한, Ideogram은 2023년 8월에 Andre..

인공지능 2025.01.02

회사email을 이직,퇴직후 바꾼 email로 받는 법

나는 회사를 다니면서 aaa.company.com 이란 회사이름이들어간 email을 사용하였는데, 회사를  이직/퇴직후 회사email로 연락하던 많은 사람들이 회사 email로 보내는 것을 새로 바뀐 나의 새로운 email로 받을 수있는 방법  회사를 이직 ,퇴직한 후 이전 회사 이메일로 오는 메시지를 새 이메일 주소로 받을 수 있는 방법은 이직 ,퇴직한 회사의 IT 정책 및 이메일 시스템에 따라 달라집니다. 아래는 일반적으로 사용할 수 있는 몇 가지 방법입니다:1. 회사에 이메일 포워딩 요청이직 / 퇴직 전에 회사 IT 부서에 요청하여 회사 이메일로 들어오는 메시지를 새로운 이메일 주소로 자동 포워딩 설정을 부탁합니다.회사 정책에 따라 포워딩이 허용되지 않을 수도 있으므로, 정책을 확인하세요.2. 자동..

IT 정보 2025.01.02

DeepL(독일), 고품질 번역, AI 기반 번역 플랫폼

https://www.deepl.com/   DeepL은 고품질 번역과 언어 처리 서비스를 제공하는 AI 기반 번역 플랫폼입니다. 이 서비스는 빠르고 정확한 번역 능력으로 많은 사용자들에게 사랑받고 있으며, 특히 자연스러운 문장 구조와 맥락을 이해하는 번역으로 유명합니다.주요 특징고품질 번역DeepL은 독점적인 신경망 기반 번역 기술을 활용하여 자연스럽고 문맥에 맞는 번역을 제공합니다.복잡한 문장이나 전문적인 문구도 높은 정확도로 번역이 가능합니다.지원 언어영어, 한국어, 일본어, 독일어, 프랑스어, 스페인어 등 30개 이상의 언어를 지원합니다.언어 간 번역의 정확도가 업계 최고 수준으로 평가받고 있습니다.문서 번역PDF, Word, PowerPoint와 같은 문서를 업로드하면 형식을 유지하면서 번역이 ..

인공지능 2025.01.02

DeepSeek(중국) , 인공지능(AI)

https://www.deepseek.com/   DeepSeek는 중국 항저우에 기반을 둔 인공지능(AI) 기업으로, 대규모 언어 모델(LLM)을 개발하고 있습니다. 2023년에 설립된 이 회사는 중국의 헤지펀드인 High-Flyer의 지원을 받고 있습니다. 위키백과주요 모델 및 성과:DeepSeek-V3: 6710억 개의 총 매개변수를 가진 Mixture-of-Experts(MoE) 언어 모델로, 각 토큰에 대해 370억 개의 매개변수가 활성화됩니다. 이 모델은 Multi-head Latent Attention(MLA) 및 DeepSeekMoE 아키텍처를 채택하여 효율적인 추론과 비용 효율적인 학습을 달성했습니다. Hugging FaceDeepSeek-V2.5: 일반적인 대화 능력과 강력한 코드 처리..

인공지능 2025.01.02