
Ответы:
В итоге, код сработал?
> В итоге, код сработал?
Да. https://www.youtube.com/live/EvtPBaaykdo?si=Snbaufugne81mb1W&t=3478
> Да
Замечательно, но это было в прямом эфире или в Google-трансляции?
Реально впечатляет, если это действительно было в прямом эфире.
> это было в прямом эфире или в Google-трансляции?
Нет, не в прямом эфире, общее время выполнения задачи составило полтора часа. Во время демонстрации оно было сокращено, чтобы уложиться в временные рамки
> Да
Но какой ценой?

> Нет, не в прямом эфире
В реальности они никогда не бывают живыми или, по крайней мере, полностью. Они всегда проходят предварительный монтаж, поэтому мы точно будут знать, что демонстрации всегда будут работать как надо.
> В реальности они никогда не бывают живыми
Так и есть. Я дал Sonnet 3.7 скриншот своего универского проекта на C++ и попросил Клода закодить его для меня, чтобы проверить его возможности. Я никогда не планировал его копировать и сдавать. Задания были настолько чёткими и конкретными, насколько это возможно, и он писал код около 5 минут, создав примерно 10–15 файлов и около 800 строк кода. Я был так впечатлён, пока не попытался запустить его и не получил около 2 минут прокрутки с ошибками, лол))
> Я был так впечатлён, пока не попытался запустить его
3500 рублей в час — недостаточная сумма, чтобы заинтересовать разработчиков C++ в обучении их преемников.
> Я был так впечатлён, пока не попытался запустить его
Да, это знакомо. Я попросил его создать максимально простой проект Unity с кубом, который я могу перемещать влево и вправо с помощью клавиш со стрелками, и у него ничего не получилось. Это не удалось исправить, даже если скормить ему дополнительные сообщения и сообщить об ошибках.
Но кодинг отдельных изолированных функций работает довольно хорошо. А вот большой кусок кода всегда выдаёт ошибки.
> большой кусок кода всегда выдаёт ошибки
Я думаю, что это следующий шаг и для этих ЛЛМок. Сейчас они пишут код целиком, не разбивая задачу на управляемые и проверяемые фрагменты. В следующих версиях LLM должна быть возможность автоматически разбивать код на части и проверять предыдущую часть перед созданием и связыванием следующей части.
> большой кусок кода всегда выдаёт ошибки
Вам просто нужно немного повозиться с ним. Начните с поиска идей. Никакого кода. Затем начните с одного компонента. Посмотрите, что он сделал. Измените его. Попросите его снова посмотреть и проанализировать. Выберите изменения, которые он хочет внести. Повторяйте процесс, пока вы и Клод не будете довольны результатом. Затем переходите к следующему компоненту.
> большой кусок кода всегда выдаёт ошибки
Всегда разделяйте код на части. Чем длиннее файл, тем хуже результаты, ИМХО.
> большой кусок кода всегда выдаёт ошибки
Так это и не сработает. Никто не пишет на C++ за один присест, даже опытные программисты. Скажите Клоду, чтобы он сделал MVP и реализовал самый простой тест, запустил его, получил ошибки, взял их обратно, повторял до тех пор, пока не скомпилируется. Затем сделайте следующий тест и т. д.
На данный момент менеджмент искусственным интеллектом — это такой же навык, как и программирование. Я писал на C++ с помощью Claude 3.7, всё работает нормально, просто нужно знать, как правильно это делать.
> Демо автономного программирования Claude 4 в течение полутора часов
Скоро он потребует кофебрейк.
> Скоро он потребует кофебрейк.
Да он уже каждые пять минут выходит покурить.
Но работает ли всё это? Я могу программировать по 1,5 часа и заниматься всякой ерундой
> автономного программирования Claude 4 в течение полутора часов
Цена за всё это будет устрашающей
> Цена за всё это будет устрашающей
Удивительно, что он не остановился после 2 токенов.
> Удивительно, что он не остановился после 2 токенов.
«У нас мы испытываем повышенный спрос, так что отвалите и подождите несколько недель, пока я отвечу. А пока можете воспользоваться Claude Haiku 3.5, который глупее вашей локальной модели»
> Цена за всё это будет устрашающей
Это временно, через несколько лет цена снизится в 30–100 раз благодаря развитию технологий компьюта
ИИ теперь сам пишет код? Что будет дальше?
> Что будет дальше?
Они создадут искусственный интеллект, который будет играть для нас в игры, ходить с нами на свидания, есть за нас, спать за нас. /сарказм
> /сарказм
Это была бы классная серия «Чёрного зеркала», которую я бы посмотрел
> Это была бы классная серия «Чёрного зеркала»
В одной из серий «Чёрного зеркала» они создают ИИ-клонов тебя и другого человека и проводят с ними ряд тестов, чтобы понять, насколько вы мэтчитесь в романтическом смысле.
«Повесь диджея», 4-й сезон ЧЗ, 4-я серия.
> Claude 4 в течение полутора часов
Отвечает, что лимит исчерпан уже к седьмому часу работы
> лимит исчерпан уже к седьмому часу работы
Люди могут работать по 8 часов в сутки. Мы в безопасности!
> Мы в безопасности!
В точку, но ты должен быть самым сосредоточенным человеком на этой земле, чтобы работать на все 100% в рабочее время
> автономного программирования Claude 4 в течение полутора часов
Зима ИИ, говорили они...
Цены пока что кажутся непомерно высокими. Но я уверен, что они быстро снизятся.
> Зима ИИ, говорили они...
Скорость прогресса с этого момента будет ещё выше, чем раньше, по экспоненте, малыш!
> Зима ИИ, говорили они...
Но ведь и правда не было ли много разговор о том, что LLM — это тупик и что за многие месяцы не было никакого реального прогресса?
Стоимость 1 часа и 30 минут работы в Claude 4: 78 000 долларов
> 78 000 долларов
И всё же он жёстко лажает за пределами демо
> лажает за пределами демо
Не знаю. Я постоянно использую Claude Code с версией 3.7, и это потрясающе. Он может выполнить 95% задач, которые я ему даю, без необходимости вносить правки и изменения.
> без необходимости вносить правки и изменения.
Это потому, что ты знаешь, какие задачи перед ним ставить.
> 78 000 долларов
Погодь, ты серьёзно? Откуда ты взял эти цифры?
> Погодь, ты серьёзно?
Несерьёзно.
Фактическая стоимость на основе опубликованных цен:
за 1 час 30 минут
Сонет: 2,70 бакса
Опус: 13,50 баксов
Это за 1 миллион токенов. Я запустил claude code cli в своей проекте на Golang, который состоит примерно из 5000 строк кода, и попросил его реализовать для меня систему инвентаризации, которую я уже частично реализовал.
Он реализовал в общей сложности 111 строк примерно за 10 минут, и это потребовало 2 774 860 токенов, что обошлось мне в 7,47 доллара при просмотре на вкладке использования в Anthropic Console. Это впечатляет, но дороговато.
Имейте в виду, коллеги, что большинство реальных людей не могут работать без перерыва более 90 минут. Циркадный цикл составляет 90 минут, и именно столько мы работаем естественным образом.
На самом деле мы не должны работать по 8 часов в день, это просто архаичный пережиток эпохи Генри Форда. Скорее всего, вы продуктивны и очень креативны максимум 3 часа в день.
> это просто архаичный пережиток эпохи Генри Форда
Я согласен, но до Форда вообще не было ограничений по количеству часов, которые люди работали в день) Если кто-то думает, что это уменьшит нашу потребность в работе, то он недооценивает жадность людей, которые нас нанимают.
> это просто архаичный пережиток эпохи Генри Форда
Не спорю, но в то время восьмичасовая пятидневная рабочая неделя была значительным улучшением по сравнению со стандартной шестидневной рабочей неделей продолжительностью от 10 до 12 часов.
Прямо сейчас в Бразилии, многие работают по 10–12 часов шесть дней в неделю
Я считаю, что это крутая демонстрация, но каждый раз, когда я пытаюсь заставить Клода что-то сделать, кажется, что он мало что делает. Это что-то типа «вау, мне нужно удалить больше, чем код, который я собираюсь сохранить... Это не кажется очень полезным».
Может быть, так всегда будет для людей с моим уровнем опыта.
Кажется, что если вы «разрабатываете новую систему», а затем пытаетесь написать для неё код, Клод не знает, как выполнять эту задачу, потому что система совершенно новая, и это не очень хорошо работает.
Я знаю, что для таких задач, как «разработка интерфейсов для CRM-систем под клиента», это работает. Так что, в общем и целом, для обычных бизнес-задач это помогает. Потому что это шаблон, который работает. Создайте панель управления, обучите всех пользоваться ею, а затем автоматизируйте всё, что можно.
Как это может надёжно работать, если в тестах Claude 4 выдаёт только 72%?
> в тестах Claude 4 выдаёт только 72%?
Предыдущие модели выдавали менее 72% точности и требовали гораздо больше человеческого вмешательства.
> в тестах Claude 4 выдаёт только 72%?
Для сонета 3.7 этот показатель составил 62,3%, а для сонета 4 — 72%. Количество ошибок сократилось примерно на четверть. Да, это огромное улучшение, но я бы не стал ожидать такой надёжности после нескольких часов программирования, учитывая, что сонет 3.7 был далёк от идеала.