Что такое ChatGPT?
ChatGPT — это разговорный чат-бот с искусственным интеллектом, построенный на языковой модели GPT-4, разработанной OpenAI. Он может выполнять различные задачи обработки естественного языка (NPL), такие как обобщение, классификация, вопросы и ответы и исправление ошибок с помощью ответов, похожих на человеческие.
Многие считают ChatGPT величайшим технологическим достижением https://dzen.ru/media/hype_of_goods/chatgpt-v-rossii-v-odnom-bote-v-telegram-64672a5ec8e33b56695364d6 со времен iPhone, и на то есть веские причины. ChatGPT — это революционная технология, которая облегчает жизнь людей, поднимая их производительность на новый уровень. Это также заставляет людей сомневаться в том, что они могут потерять работу в одночасье. Если вы кто-то, кто беспокоится о своей работе, ознакомьтесь с 4 причинами, по которым ChatGPT не примет вашу работу.
Кому принадлежит ChatGPT?
Чат-бот с искусственным интеллектом ChatGPT создан и принадлежит OpenAI. Илон Маск и Сэм Альтман основали его как некоммерческую компанию в 2015 году. Продвигаясь вперед, в 2018 году Илон Маск вышел из Open AI и больше не владеет долей в Open AI. Сначала компания получила 1 миллиард долларов от венчурных капиталистов Силиконовой долины, чтобы начать создание нейронных сетей.
В 2019 году OpenAI привлек второй раунд финансирования от Microsoft на сумму 1 миллиард долларов. Они начали использовать суперкомпьютеры Azure для построения этих больших языковых моделей. Фактически, OpenAI использовала большую часть средств для получения кредитов Azure.
Перенесемся в 2023 год: Microsoft инвестировала в OpenAI 10 миллиардов долларов, доведя общую долю до 49%. Другие инвесторы, включая Khosla Ventures, занимают еще 49%, в то время как OpenAI сохраняет за собой только 2% в капитале.
Как работает ChatGPT?
Сеть Transformer
Чат-боты с искусственным интеллектом существовали до ChatGPT, но никогда не привлекали внимания людей, поскольку они не были разговорными.
Что изменилось сейчас?
В 2017 году Google представила сетевую архитектуру под названием Transformer в своей статье «Внимание — это все, что вам нужно». Это привело к смене парадигмы в обучении модели большого языка (LLM).
В то время сети рекуррентных нейронных сетей (RNN) и долговременной кратковременной памяти (LSTM) не соответствовали сетям-трансформаторам. У RNN были проблемы с долгосрочными зависимостями, и LSTM не мог сосредоточиться на правильных словах в длинном предложении, чтобы получить правильный результат.
Сети transformer изменили способ обучения языковых моделей. Вместо обработки одного слова за раз, как RNN, преобразование может вводить весь ввод сразу. Кроме того, transformer позволяет запускать несколько входов параллельно, снижая вычислительные затраты и ускоряя обучение.