파이토치 공식 홈에서 글을 보았다.
https://discuss.pytorch.kr/t/gn-llm/4566
[GN⁺] LLM은 더 이상 "인터넷으로 학습"하지 않는다
LLM은 더 이상 "인터넷으로 학습"하지 않는다 소개 과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이 되고 있음 "인터넷 시뮬레이터"라는 개념은
discuss.pytorch.kr
- LLM 학습자들은 최근 "데이터 장벽"에 부딪혔음
- OpenAI는 이미 웹상의 거의 모든 데이터를 보유하고 있어, 더 나은 LLM을 만들기 위해서는 비공개 데이터 획득 및 생성이 필요함
결국 데이터의 양은 확보가 되었고 앞으로는 더욱 더 중요한 것은 데이터의 질이라고 생각한다.
어떤 특수한 데이터를 담은 LLM 모델이 획기적으로 세상과 잘 맞닿는다면 살아남을 수 있지 않을까?
여기서 데이터의 질 => 특수한 데이터 => 기업만이 얻을 수 있는 데이터라고 생각한다.