Голландский AI-корпус обнажил главную слабость американских языковых моделей

Сегодня • arXiv cs.CL
Голландские исследователи выпустили GPT-NL Public Corpus — первый крупный датасет для обучения языковых моделей с голландским приоритетом. Казалось бы, локальная инициатива. Но этот релиз вскрывает неудобную правду о том, почему американские ИИ-гиганты проигрывают глобальную гонку.

Общепринятая мудрость гласит: английский — универсальный язык ИИ, поэтому модели, обученные на английских данных, автоматически лучше. OpenAI, Google и Anthropic строят свои стратегии именно на этом предположении, вкладывая миллиарды в англоязычные датасеты.

Но GPT-NL переворачивает эту логику. Датасет содержит 2.6 терабайта голландского текста под пермиссивной лицензией — больше качественных данных на один язык, чем многие американские корпорации собрали за годы. Результат: модели, обученные на GPT-NL, показывают на 23% лучшую производительность в задачах на голландском, чем GPT-4.

Настоящий поворот в том, что голландский подход масштабируется. Пока Кремниевая долина скребёт по дну интернета в поисках англоязычного контента, небольшие европейские команды создают высококачественные языково-специфичные датасеты. Они не пытаются построить 'универсальную' модель — они строят лучшие модели для конкретных рынков.