Голландский AI-корпус обнажил главную слабость американских языковых моделей
Общепринятая мудрость гласит: английский — универсальный язык ИИ, поэтому модели, обученные на английских данных, автоматически лучше. OpenAI, Google и Anthropic строят свои стратегии именно на этом предположении, вкладывая миллиарды в англоязычные датасеты.
Но GPT-NL переворачивает эту логику. Датасет содержит 2.6 терабайта голландского текста под пермиссивной лицензией — больше качественных данных на один язык, чем многие американские корпорации собрали за годы. Результат: модели, обученные на GPT-NL, показывают на 23% лучшую производительность в задачах на голландском, чем GPT-4.
Настоящий поворот в том, что голландский подход масштабируется. Пока Кремниевая долина скребёт по дну интернета в поисках англоязычного контента, небольшие европейские команды создают высококачественные языково-специфичные датасеты. Они не пытаются построить 'универсальную' модель — они строят лучшие модели для конкретных рынков.