В мире искусственного интеллекта (ИИ) одна из самых распространённых технологий оптимизации моделей — квантование — похоже, приближается к своим естественным ограничениям. Давайте разберемся, почему это происходит и какие последствия это может иметь для индустрии.
В контексте ИИ квантование представляет собой процесс уменьшения количества битов, необходимых для представления информации. Представьте себе простую аналогию: когда вас спрашивают о времени, вы обычно отвечаете "полдень", а не "двенадцать часов, одна секунда и четыре миллисекунды". Это и есть квантование — оба ответа верны, но один менее точен. Степень необходимой точности зависит от конкретной ситуации.
О процессе квантования - простыми словами и легкими примерами.
Согласно новому исследованию, проведенному учеными из Гарварда, Стэнфорда, MIT, Databricks и Университета Карнеги-Меллона, квантованные модели показывают худшие результаты, если исходная версия модели обучалась длительное время на больших объемах данных. Это означает, что в определенный момент может оказаться эффективнее обучить меньшую модель с нуля, чем пытаться сжать большую.
Эти выводы могут иметь серьезные последствия для компаний, разрабатывающих ИИ. Например, разработчики уже отметили, что квантование модели Meta's Llama 3 приводит к более заметному снижению качества по сравнению с другими моделями.
Вопреки распространенному мнению, процесс вывода (inference) — использование модели для получения ответов — часто оказывается дороже, чем само обучение. Показательный пример: Google потратила около 191 миллиона долларов на обучение одной из моделей Gemini, но если бы компания использовала эту модель для генерации даже небольших ответов на половину поисковых запросов, годовые затраты составили бы примерно 6 миллиардов долларов.
Исследователи предполагают, что обучение моделей изначально в режиме низкой точности может сделать их более устойчивыми к деградации при квантовании. Большинство современных моделей обучается с 16-битной точностью и затем квантуется до 8 бит. Однако дальнейшее снижение точности может привести к заметному ухудшению качества, если только модель не обладает огромным количеством параметров.
По мнению Танишка Кумара, ведущего автора исследования, в будущем больше внимания будет уделяться тщательному отбору и фильтрации данных для обучения, чтобы использовать только самые качественные данные для меньших моделей. Также ожидается появление новых архитектур, изначально разработанных для стабильной работы при низкой точности вычислений.
Исследование показывает, что не существует простых решений для снижения затрат на вывод в ИИ. Точность представления данных имеет значение, и её нельзя бесконечно уменьшать без последствий для качества работы моделей. Это заставляет индустрию искать новые подходы к оптимизации и развитию технологий искусственного интеллекта.
Источник - https://techcrunch.com/2024/12/23/a-popular-technique-to-make-ai-more-efficient-has-drawbacks/
Автор: Максим Мирошник