본문 바로가기

개발

LLM은 더 이상 "인터넷으로 학습"하지 않는다

파이토치 공식 홈에서 글을 보았다.

 

https://discuss.pytorch.kr/t/gn-llm/4566

 

[GN⁺] LLM은 더 이상 "인터넷으로 학습"하지 않는다

LLM은 더 이상 "인터넷으로 학습"하지 않는다 소개 과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이 되고 있음 "인터넷 시뮬레이터"라는 개념은

discuss.pytorch.kr

 

  • LLM 학습자들은 최근 "데이터 장벽"에 부딪혔음
    • OpenAI는 이미 웹상의 거의 모든 데이터를 보유하고 있어, 더 나은 LLM을 만들기 위해서는 비공개 데이터 획득 및 생성이 필요함

결국 데이터의 양은 확보가 되었고 앞으로는 더욱 더 중요한 것은 데이터의 질이라고 생각한다.

어떤 특수한 데이터를 담은 LLM 모델이 획기적으로 세상과 잘 맞닿는다면 살아남을 수 있지 않을까?

여기서 데이터의 질 => 특수한 데이터 => 기업만이 얻을 수 있는 데이터라고 생각한다.