HAERAE LAB

LAB소개

HAERAE LAB은 한국어 언어 인공지능을 연구하는 모입입니다. 저희는 2023년 05월 처음으로 팀을 이루고 연구를 시작하여 한국어 언어 모델 평가 분야에서 총 2편의 논문(HAE-RAE Bench, KMMLU) 을 작성하였습니다. (최근 HAE-RAE Bench는 LREC-COLING에 억셉이 되었으며, KMMLU는 현재 심사 중에 있습니다. ) 부족하지만 앞으로도 꾸준히 기여해 나가는 것을 목표로 하고 있습니다.

알아주셨으면 하는 점은 HAERAE LAB은 한국어 언어 모델 학습 (continual pre-training, supervised fine-tuning, rlhf, 등) 에 관련된 연구는 지양하고 있습니다. 이미 충분히 많은 분들이 기여 해주고 계시기도 하며, 아무래도 학습 리소스 등이 풍부하지 못한 상황에서는 양질의 연구를 하기에 부적합하기 때문입니다. HAERAE LAB은 기존에 해왔던 (1) 한국어 언어 모델 평가와 더불어 (2) Robust-Evaluation (3) multilingual interpretability 분야의 연구를 해나갈 계획입니다.

활동계획

활동 목표: (한국어 언어 모델 평가 / Robust-Evaluation / multilingual interpretability) 연구 및 해외 컨퍼런스 & 워크샵 논문 작성
목표 학회: EMNLP (6월 ARR), AAAI, EACL (10월 ARR) 등 및 기타 워크샵.

운영 계획:
(1) [1~2 달에 한번 정기 세미나] 해당 세미나에서는 서로의 논문 아이디어를 공유하고 신규로 작업할 논문을 결정할 예정입니다.
(2) [주 1회 Research Hour] 다들 본업이 따로 있으신 만큼 연구에 꾸준히 시간을 할애하는 것이 힘들다는 것을 이해합니다. 이 때문에 저희는 정기 회의 대신 주 1회 1~2시간 정도 온라인 회의를 켜둔 상태로 각자의 연구를 진행하는 시간을 가질 예정입니다.
(3) [논문 작성] 개별 논문에 대한 스케줄은 데드라인에 맞추어 유동적으로 조절될 예정입니다.

[Pending Research]
1. Question and Answers with Regional Variance (QARV): "불이 나면 어디로 전화해야해?" 와 같은 질문은 질문자가 위치한 국가/문화권에 따라 정답이 달라집니다. (미국에서는 911 한국에서는 119) QARV 프로젝트는 지역별로 정답이 달라지는 질문-응답 쌍을 수집하고 이를 바탕으로 언어모델의 regional bias를 측정하는 것을 목표로 하고 있습니다. 참여자들은 데이터 수집, 언어 모델 평가, 평가 결과 분석 모든 단계에 참여하게 될 예정입니다. 현재 약 100개 정도의 질문쌍을 수집한 상태입니다.

2. Multilingual Interpretability: 최근 논문들을 살펴보면 (https://arxiv.org/abs/2402.10588, https://arxiv.org/abs/2402.18815) Multilingual LM은 대개 먼저 영어로 생각한 뒤 target language 로 번역하여 응답을 생성하게 됩니다. target language로 번역하는 과정이 성능 저하에 어떤 영향을 미치는지, polyglot-ko 와 같이 한국어 모델에게 영어 질문을 준다면 한국어로 사고하고 영어로 번역하여 발화하는지, 추가 학습을 통해 이러한 현상을 완화 할 수 있는지, 해당 현상을 완화하는 것이 성능 향상으로 이어지는지 와 같은 research question을 탐구 해볼 예정입니다.

연구목표

#논문_작성

참여조건

1. 한국어 인공지능에 대한 관심, 연구 경험, 영작 능력, 등
2. 주 1회 Research Hour에 꾸준히 참석이 가능하신 분.

랩짱소개

손규진

자기 소개

안녕하세요 HAERAE LAB의 랩장을 맡은 손규진입니다. 저는 현재 연세대학교에서 경제학을 전공하고 있으며 지난 1년간 HAE-RAE 팀을 운영하며 HAE-RAE Bench, KMMLU 두 논문의 1저자로 참여하였습니다. 부족하지만 열심히 하겠습니다. 감사합니다.

소속

연세대학교, OneLineAI, EleutherAI

E-mail

spthsrbwls123@yonsei.ac.kr

이한울

자기 소개

HAERAE Lab의 공동리드이자 손규진 사이드킥 이한울입니다. 코드 짜는거 좋아합니다. 감사합니다

소속

엔씨소프트

E-mail

HAERAE LAB

모임시작: 2024년 04월 02일

모임일시: 매주 화요일 22:00 ~ 24:00

모임장소: 온라인

모집기간: 2024년 03월 08일 ~ 04월 01일

모집인원: 3명

모집방법: 선발

모임비용: 무료

활동중

모집 알림 받기

HAERAE LAB

모임시작: 2024년 04월 02일

모임일시: 매주 화요일 22:00 ~ 24:00

모임장소: 온라인

모집기간: 2024년 03월 08일 ~ 04월 01일

모집인원: 3명

모집방법: 선발

모임비용: 무료

LAB 소개

HAERAE LAB은 한국어 언어 인공지능을 연구하는 모입입니다. 저희는 2023년 05월 처음으로 팀을 이루고 연구를 시작하여 한국어 언어 모델 평가 분야에서 총 2편의 논문(HAE-RAE Bench, KMMLU) 을 작성하였습니다. (최근 HAE-RAE Bench는 LREC-COLING에 억셉이 되었으며, KMMLU는 현재 심사 중에 있습니다. ) 부족하지만 앞으로도 꾸준히 기여해 나가는 것을 목표로 하고 있습니다.

알아주셨으면 하는 점은 HAERAE LAB은 한국어 언어 모델 학습 (continual pre-training, supervised fine-tuning, rlhf, 등) 에 관련된 연구는 지양하고 있습니다. 이미 충분히 많은 분들이 기여 해주고 계시기도 하며, 아무래도 학습 리소스 등이 풍부하지 못한 상황에서는 양질의 연구를 하기에 부적합하기 때문입니다. HAERAE LAB은 기존에 해왔던 (1) 한국어 언어 모델 평가와 더불어 (2) Robust-Evaluation (3) multilingual interpretability 분야의 연구를 해나갈 계획입니다.

활동계획

활동 목표: (한국어 언어 모델 평가 / Robust-Evaluation / multilingual interpretability) 연구 및 해외 컨퍼런스 & 워크샵 논문 작성
목표 학회: EMNLP (6월 ARR), AAAI, EACL (10월 ARR) 등 및 기타 워크샵.

운영 계획:
(1) [1~2 달에 한번 정기 세미나] 해당 세미나에서는 서로의 논문 아이디어를 공유하고 신규로 작업할 논문을 결정할 예정입니다.
(2) [주 1회 Research Hour] 다들 본업이 따로 있으신 만큼 연구에 꾸준히 시간을 할애하는 것이 힘들다는 것을 이해합니다. 이 때문에 저희는 정기 회의 대신 주 1회 1~2시간 정도 온라인 회의를 켜둔 상태로 각자의 연구를 진행하는 시간을 가질 예정입니다.
(3) [논문 작성] 개별 논문에 대한 스케줄은 데드라인에 맞추어 유동적으로 조절될 예정입니다.

[Pending Research]
1. Question and Answers with Regional Variance (QARV): "불이 나면 어디로 전화해야해?" 와 같은 질문은 질문자가 위치한 국가/문화권에 따라 정답이 달라집니다. (미국에서는 911 한국에서는 119) QARV 프로젝트는 지역별로 정답이 달라지는 질문-응답 쌍을 수집하고 이를 바탕으로 언어모델의 regional bias를 측정하는 것을 목표로 하고 있습니다. 참여자들은 데이터 수집, 언어 모델 평가, 평가 결과 분석 모든 단계에 참여하게 될 예정입니다. 현재 약 100개 정도의 질문쌍을 수집한 상태입니다.

2. Multilingual Interpretability: 최근 논문들을 살펴보면 (https://arxiv.org/abs/2402.10588, https://arxiv.org/abs/2402.18815) Multilingual LM은 대개 먼저 영어로 생각한 뒤 target language 로 번역하여 응답을 생성하게 됩니다. target language로 번역하는 과정이 성능 저하에 어떤 영향을 미치는지, polyglot-ko 와 같이 한국어 모델에게 영어 질문을 준다면 한국어로 사고하고 영어로 번역하여 발화하는지, 추가 학습을 통해 이러한 현상을 완화 할 수 있는지, 해당 현상을 완화하는 것이 성능 향상으로 이어지는지 와 같은 research question을 탐구 해볼 예정입니다.

연구목표

#논문_작성

참여조건

1. 한국어 인공지능에 대한 관심, 연구 경험, 영작 능력, 등
2. 주 1회 Research Hour에 꾸준히 참석이 가능하신 분.

랩짱소개

손규진

자기 소개

안녕하세요 HAERAE LAB의 랩장을 맡은 손규진입니다. 저는 현재 연세대학교에서 경제학을 전공하고 있으며 지난 1년간 HAE-RAE 팀을 운영하며 HAE-RAE Bench, KMMLU 두 논문의 1저자로 참여하였습니다. 부족하지만 열심히 하겠습니다. 감사합니다.

소속

연세대학교, OneLineAI, EleutherAI

E-mail

spthsrbwls123@yonsei.ac.kr

이한울

자기 소개

HAERAE Lab의 공동리드이자 손규진 사이드킥 이한울입니다. 코드 짜는거 좋아합니다. 감사합니다

소속

엔씨소프트

E-mail

활동중

모집 알림 받기