Демо автономного программирования Claude 4 в течение полутора часов

Ответы:

В итоге, код сработал?

> В итоге, код сработал?

Да. https://www.youtube.com/live/EvtPBaaykdo?si=Snbaufugne81mb1W&t=3478

> Да

Замечательно, но это было в прямом эфире или в Google-трансляции?
Реально впечатляет, если это действительно было в прямом эфире.

> это было в прямом эфире или в Google-трансляции?

Нет, не в прямом эфире, общее время выполнения задачи составило полтора часа. Во время демонстрации оно было сокращено, чтобы уложиться в временные рамки

> Да

Но какой ценой?

> Нет, не в прямом эфире

В реальности они никогда не бывают живыми или, по крайней мере, полностью. Они всегда проходят предварительный монтаж, поэтому мы точно будут знать, что демонстрации всегда будут работать как надо.

> В реальности они никогда не бывают живыми

Так и есть. Я дал Sonnet 3.7 скриншот своего универского проекта на C++ и попросил Клода закодить его для меня, чтобы проверить его возможности. Я никогда не планировал его копировать и сдавать. Задания были настолько чёткими и конкретными, насколько это возможно, и он писал код около 5 минут, создав примерно 10–15 файлов и около 800 строк кода. Я был так впечатлён, пока не попытался запустить его и не получил около 2 минут прокрутки с ошибками, лол))

> Я был так впечатлён, пока не попытался запустить его

3500 рублей в час — недостаточная сумма, чтобы заинтересовать разработчиков C++ в обучении их преемников.

> Я был так впечатлён, пока не попытался запустить его

Да, это знакомо. Я попросил его создать максимально простой проект Unity с кубом, который я могу перемещать влево и вправо с помощью клавиш со стрелками, и у него ничего не получилось. Это не удалось исправить, даже если скормить ему дополнительные сообщения и сообщить об ошибках.

Но кодинг отдельных изолированных функций работает довольно хорошо. А вот большой кусок кода всегда выдаёт ошибки.

> большой кусок кода всегда выдаёт ошибки

Я думаю, что это следующий шаг и для этих ЛЛМок. Сейчас они пишут код целиком, не разбивая задачу на управляемые и проверяемые фрагменты. В следующих версиях LLM должна быть возможность автоматически разбивать код на части и проверять предыдущую часть перед созданием и связыванием следующей части.

> большой кусок кода всегда выдаёт ошибки

Вам просто нужно немного повозиться с ним. Начните с поиска идей. Никакого кода. Затем начните с одного компонента. Посмотрите, что он сделал. Измените его. Попросите его снова посмотреть и проанализировать. Выберите изменения, которые он хочет внести. Повторяйте процесс, пока вы и Клод не будете довольны результатом. Затем переходите к следующему компоненту.

> большой кусок кода всегда выдаёт ошибки

Всегда разделяйте код на части. Чем длиннее файл, тем хуже результаты, ИМХО.

> большой кусок кода всегда выдаёт ошибки

Так это и не сработает. Никто не пишет на C++ за один присест, даже опытные программисты. Скажите Клоду, чтобы он сделал MVP и реализовал самый простой тест, запустил его, получил ошибки, взял их обратно, повторял до тех пор, пока не скомпилируется. Затем сделайте следующий тест и т. д.

На данный момент менеджмент искусственным интеллектом — это такой же навык, как и программирование. Я писал на C++ с помощью Claude 3.7, всё работает нормально, просто нужно знать, как правильно это делать.

> Демо автономного программирования Claude 4 в течение полутора часов

Скоро он потребует кофебрейк.

> Скоро он потребует кофебрейк.

Да он уже каждые пять минут выходит покурить.

Но работает ли всё это? Я могу программировать по 1,5 часа и заниматься всякой ерундой

> автономного программирования Claude 4 в течение полутора часов

Цена за всё это будет устрашающей

> Цена за всё это будет устрашающей

Удивительно, что он не остановился после 2 токенов.

> Удивительно, что он не остановился после 2 токенов.

«У нас мы испытываем повышенный спрос, так что отвалите и подождите несколько недель, пока я отвечу. А пока можете воспользоваться Claude Haiku 3.5, который глупее вашей локальной модели»

> Цена за всё это будет устрашающей

Это временно, через несколько лет цена снизится в 30–100 раз благодаря развитию технологий компьюта

ИИ теперь сам пишет код? Что будет дальше?

> Что будет дальше?

Они создадут искусственный интеллект, который будет играть для нас в игры, ходить с нами на свидания, есть за нас, спать за нас. /сарказм

> /сарказм

Это была бы классная серия «Чёрного зеркала», которую я бы посмотрел

> Это была бы классная серия «Чёрного зеркала»

В одной из серий «Чёрного зеркала» они создают ИИ-клонов тебя и другого человека и проводят с ними ряд тестов, чтобы понять, насколько вы мэтчитесь в романтическом смысле.

«Повесь диджея», 4-й сезон ЧЗ, 4-я серия.

> Claude 4 в течение полутора часов

Отвечает, что лимит исчерпан уже к седьмому часу работы

> лимит исчерпан уже к седьмому часу работы

Люди могут работать по 8 часов в сутки. Мы в безопасности!

> Мы в безопасности!

В точку, но ты должен быть самым сосредоточенным человеком на этой земле, чтобы работать на все 100% в рабочее время

> автономного программирования Claude 4 в течение полутора часов

Зима ИИ, говорили они...

Цены пока что кажутся непомерно высокими. Но я уверен, что они быстро снизятся.

> Зима ИИ, говорили они...

Скорость прогресса с этого момента будет ещё выше, чем раньше, по экспоненте, малыш!

> Зима ИИ, говорили они...

Но ведь и правда не было ли много разговор о том, что LLM — это тупик и что за многие месяцы не было никакого реального прогресса?

Стоимость 1 часа и 30 минут работы в Claude 4: 78 000 долларов

> 78 000 долларов

И всё же он жёстко лажает за пределами демо

> лажает за пределами демо

Не знаю. Я постоянно использую Claude Code с версией 3.7, и это потрясающе. Он может выполнить 95% задач, которые я ему даю, без необходимости вносить правки и изменения.

> без необходимости вносить правки и изменения.

Это потому, что ты знаешь, какие задачи перед ним ставить.

> 78 000 долларов

Погодь, ты серьёзно? Откуда ты взял эти цифры?

> Погодь, ты серьёзно?

Несерьёзно.

Фактическая стоимость на основе опубликованных цен:
за 1 час 30 минут
Сонет: 2,70 бакса
Опус: 13,50 баксов

Это за 1 миллион токенов. Я запустил claude code cli в своей проекте на Golang, который состоит примерно из 5000 строк кода, и попросил его реализовать для меня систему инвентаризации, которую я уже частично реализовал.

Он реализовал в общей сложности 111 строк примерно за 10 минут, и это потребовало 2 774 860 токенов, что обошлось мне в 7,47 доллара при просмотре на вкладке использования в Anthropic Console. Это впечатляет, но дороговато.

Имейте в виду, коллеги, что большинство реальных людей не могут работать без перерыва более 90 минут. Циркадный цикл составляет 90 минут, и именно столько мы работаем естественным образом.

На самом деле мы не должны работать по 8 часов в день, это просто архаичный пережиток эпохи Генри Форда. Скорее всего, вы продуктивны и очень креативны максимум 3 часа в день.

> это просто архаичный пережиток эпохи Генри Форда

Я согласен, но до Форда вообще не было ограничений по количеству часов, которые люди работали в день) Если кто-то думает, что это уменьшит нашу потребность в работе, то он недооценивает жадность людей, которые нас нанимают.

> это просто архаичный пережиток эпохи Генри Форда

Не спорю, но в то время восьмичасовая пятидневная рабочая неделя была значительным улучшением по сравнению со стандартной шестидневной рабочей неделей продолжительностью от 10 до 12 часов.

Прямо сейчас в Бразилии, многие работают по 10–12 часов шесть дней в неделю

Я считаю, что это крутая демонстрация, но каждый раз, когда я пытаюсь заставить Клода что-то сделать, кажется, что он мало что делает. Это что-то типа «вау, мне нужно удалить больше, чем код, который я собираюсь сохранить... Это не кажется очень полезным».

Может быть, так всегда будет для людей с моим уровнем опыта.

Кажется, что если вы «разрабатываете новую систему», а затем пытаетесь написать для неё код, Клод не знает, как выполнять эту задачу, потому что система совершенно новая, и это не очень хорошо работает.

Я знаю, что для таких задач, как «разработка интерфейсов для CRM-систем под клиента», это работает. Так что, в общем и целом, для обычных бизнес-задач это помогает. Потому что это шаблон, который работает. Создайте панель управления, обучите всех пользоваться ею, а затем автоматизируйте всё, что можно.

Как это может надёжно работать, если в тестах Claude 4 выдаёт только 72%?

> в тестах Claude 4 выдаёт только 72%?

Предыдущие модели выдавали менее 72% точности и требовали гораздо больше человеческого вмешательства.

> в тестах Claude 4 выдаёт только 72%?

Для сонета 3.7 этот показатель составил 62,3%, а для сонета 4 — 72%. Количество ошибок сократилось примерно на четверть. Да, это огромное улучшение, но я бы не стал ожидать такой надёжности после нескольких часов программирования, учитывая, что сонет 3.7 был далёк от идеала.

Демо автономного программирования Claude 4 в течение полутора часов — это вау!

Ответы:

Статьи и обсуждения