Пророки искусственного интеллекта и журналисты предсказывают конец ажиотажа вокруг генеративного ИИ, говоря о надвигающемся катастрофическом «крахе модели». Но насколько реалистичны эти прогнозы? Да и что это вообще такое?
«Крах модели», который начали обсуждать еще в 2023 году, относится к гипотетическому сценарию, при котором будущие системы искусственного интеллекта становятся все глупее из-за увеличения количества данных, генерируемых ИИ в интернете.
Потребность в данных
Современные системы искусственного интеллекта построены с использованием машинного обучения. Программисты устанавливают базовую математическую структуру, но фактический «интеллект» система получает, обучаясь имитации шаблонов, заложенных в представленных данных.
Но при этом требуются не просто какая-то информация из интернета. Нынешнее поколение генеративных систем искусственного интеллекта нуждается в большом количестве высококачественных данных. Чтобы их получить, крупные технологические компании, такие как OpenAI, Google, Meta и Nvidia, постоянно прочесывают Интернет, собирая терабайты контента для кормления машин. При этом, с появлением в 2022 году широко доступных и полезных генеративных систем ИИ, люди все чаще загружают и обмениваются контентом, частично или полностью созданным ИИ.
Цифровой инбридинг
В 2023 году исследователи начали задаваться вопросом, смогут ли они полагаться на данные, созданные искусственным интеллектом, а не на данные, созданные человеком. С одной стороны, у этого варианта есть множество плюсов. Помимо распространения в Интернете, контент, созданный искусственным интеллектом, намного дешевле, чем человеческий. Кроме того, с этической и юридической точки зрения массовый сбор такой информации осуществить гораздо проще.
О книгах, посвященных искусственному интеллекту, читайте в статье «Будущее не за горами: топ книг про ИИ»
Тем не менее, исследователи обнаружили, что без высококачественных данных о людях системы ИИ, обученные на данных, созданных ИИ, становятся все глупее и глупее, поскольку каждая модель учится на предыдущей. Это как цифровая версия проблемы инбридинга.
Такое «отрыгивающее обучение», по-видимому, приводит к снижению качества и разнообразия модельного поведения. Качество здесь примерно означает некую комбинацию полезности, безвредности и честности. Разнообразие относится к различиям в ответах, а также к тому, какие культурные и социальные взгляды людей представлены в выходных данных ИИ.
Предотвращение коллапса
Разве крупные компании не могут просто отфильтровать контент, созданный искусственным интеллектом? Все не так просто. Технологические гиганты уже тратят много времени и денег на очистку и фильтрацию данных, которые они собирают. Один отраслевой инсайдер недавно поделился, что иногда они отбрасывают до 90% данных, которые они изначально собирают для обучения моделей.
Эти усилия могут стать более значительными, поскольку со временем возрастёт потребность в специальном удалении контента, созданного искусственным интеллектом. Но что еще более важно, в долгосрочной перспективе будет все труднее и труднее понять, кто является автором – человек или нейросеть.
Без человека не обойтись
Есть намеки на то, что разработчикам уже приходится работать усерднее, чтобы получить высококачественную информацию для обучения. Например, в документации, сопровождающей выпуск GPT-4, указано, что беспрецедентное количество сотрудников было задействовано в тех частях проекта, которые связаны с данными.
Кроме того, у нас могут заканчиваться новые данные о человеке. По некоторым оценкам, пул текстовых данных, генерируемых человеком, может быть исчерпан уже в 2026 году.
Вероятно, именно поэтому OpenAI и другие компании стремятся укрепить эксклюзивные партнерские отношения с такими отраслевыми гигантами, как Shutterstock, Associated Press и NewsCorp. Они владеют большими частными коллекциями произведенных человеком данных, которые не всегда доступны в открытом интернете.
Не стоит преувеличивать!
Тем не менее, перспективы катастрофического коллапса модели могут быть преувеличены. Большинство исследований до сих пор рассматривали случаи, когда синтетические данные заменяют человеческие. На практике данные, произведенные человеком и искусственным интеллектом, скорее всего, будут накапливаться параллельно, что снижает вероятность коллапса.
Наиболее вероятный сценарий будущего также будет заключаться в том, что для создания и публикации контента будет использоваться экосистема довольно разнообразных платформ генеративного искусственного интеллекта, а не одна монолитная модель. Это также повышает устойчивость к обрушению.
В любом случае, эта дискуссия – хороший повод для регулирующих органов продвигать здоровую конкуренцию путем ограничения монополий в секторе искусственного интеллекта, а также финансировать развитие технологий в общественных интересах.