Что как по искусственному интеллекту

2024.07.26

Перечисляю здесь свои успехи и приблизительные дальнейшие планы по переводам и написанию текстов по тематике искусственного интеллекта, а также некоторые мысли и рекомендации.

Затронул вопросы безопасности и сроков для общего ИИ, связанных с ИИ рисков астрономических страданий, ортогональности целей и интеллекта, когерентного экстраполированного воления, и освещения подобных тем на YouTube.

Безопасность ИИ в целом

В конце этой весны я начал переводить материалы с сайта Arbital, посвященного теме согласования ИИ (во всяком случае с позиции MIRI) и математике. Сайт очень интересный и давно привлекал мое внимание. Я подготовил уже более 50-ти страниц с Арбитала и перенес ту часть навигации, которая покрывает основные материалы по ИИ. Планирую как минимум еще один такой марафон по переводам, но пока еще не знаю когда. Сейчас у меня лежит кучка неоконченных черновых. Помимо своих переводов я также отредактировал парочку чужих, и еще три нужно будет проверить.

Хочу поблагодарить Максима Выменца и других, кто помогал мне с вычиткой переводов. Мак периодически переводит статьи самых разных авторов на тему безопасности ИИ и выкладывает на сайте aisafety.ru и на русском LessWrong — рекомендую ознакомиться. Он переводил, например, очень понравившийся мне «Обзор катастрофических рисков ИИ», цепочку о «Встроенной агентности», а также нашумевшую статью «Поставить разработку ИИ на паузу не достаточно. Нам надо остановить её полностью» Элиезера Юдковского.

Не так давно я открыл для себя такого автора как Роман Ямпольский, у которого огромное количество статей, касающихся ИИ. На русском языке есть лишь две из них («От зачаточного ИИ к Технической Сингулярности» и «Герметизация сингулярности. Проблема ограничения свободы искусственного интеллекта »). А в прочих статьях он затрагивал, например, проблемы необъяснимости, непредсказуемости и неконтролируемости общего ИИ и вопросы благополучия обладающих сознанием ИИ-систем. Может быть когда-нибудь что-нибудь переведу, но пока в планах хватает и других авторов.

Риски страданий, связанные с ИИ

Сейчас нахожусь в процессе переписывания своей старой статьи об ИИ в контексте страданий. Одна из ключевых ее тем — это риски будущих астрономических страданий (s-риски). Я планирую серию переводов (в основном статей Тобайаса Баумана) на эту тему в целом, не только про ИИ. Из переведенного уже можно почитать «Важность далекого будущего» Баумана и ранее публиковавшиеся переводы других авторов на Reducing Suffering.

Среди уже переведенных с Арбитала материалов я особенно хочу отметить пару статей, посвященных одному из возможных сценариев s-рисков: «Ментальные преступления» и «Введение в ментальные преступления» описывают сценарии, в которых могут в больших количествах страдать потенциально морально значимые подсистемы в крупных ИИ-системах (по причине, например, излишне детальных симуляций других агентов в процессе мышления ИИ).

Еще я примерно наполовину отредактировал перевод замечательной статьи «Artificial Suffering: An Argument for a Global Moratorium on Synthetic Phenomenology» Томаса Метцингера, посвященной s-риску, связанному с возможностью страданий у самих ИИ-систем в целом, а также другим вытекающим из него рискам (он также затрагивал эту тему в книге «Наука о мозге и миф о своем Я. Тоннель Эго»). Как и Юдковский, он предлагает ввести всемирный мораторий на некоторые виды разработок до тех пор, пока нельзя будет значительно снизить риски. (Я скептично отношусь к возможности подобных мораториев в ближайшее время.)

В дальнейшем также планирую перевести с Арбитала небольшую статью о гиперэкзистенциальных рисках, которые сильно пересекаются с s-рисками.

Ортогональность целей и интеллекта

Давно хочу осветить тему ортогональности (независимости) целей и интеллекта. Если огрубить, то тезис ортогональности утверждает, что теоретически возможны почти любые сочетания (выполнимых) целей и интеллекта. В частности, возможны сверхинтеллектуальные существа, занимающиеся полной ерундой, например максимизирующие число канцелярских скрепок во вселенной.

На русском об этом можно немного почитать в книге Ника Бострома «Искусственный интеллект. Этапы. Угрозы. Стратегии». Но наиболее ценные материалы на эту тему пока не переведены — в первую очередь это статья с Арбитала (за которую я, наверное, возьмусь при следующем переводческом забеге). Я также собирал другие материалы по теме, могу порекомендовать «General Purpose Intelligence: Arguing the Orthogonality Thesis» и «An AGI Modifying Its Utility Function in Violation of the Strong Orthogonality Thesis».

Помимо пересказа темы, мне хотелось бы поразмышлять над тем, 1) какие возможны более скромные утверждения о структуре пространства возможных умов, достаточно релевантные для безопасности ИИ, и 2) что означало бы для нас гипотетическое серьезное нарушение ортогональности, и какие причины могли бы его вызвать. Последняя тема частично затронута в моем черновике статьи об ИИ и страданиях.

Недавно я высказал опасение о том, что моральный реализм (во всяком случае его жесткие формы, подразумевающие универсализм и интернализм мотивации) может быть препятствием на пути понимания некоторых тем в сфере ИИ, таких как ортогональность. Пока сложно понять насколько велико это препятствие, но статистика о том, сколько философов придерживаются морального реализма, меня несколько пугает (впрочем, далеко не все из них интерналисты в отношении мотивации и непонятно, как бы они на самом деле отнеслись к теме, так что вопрос требует уточнений). Но, похоже, это говорит в пользу того, что выбор позиции в метаэтике далек от вкусовщины — он может иметь очень значительные последствия в приоритизации наших усилий на практике.

Когерентное экстраполированное воление

Что бы мы сочли правильным, если бы у нас было больше знаний, если бы мы лучше понимали и контролировали самих себя, и если бы мы рассматривали как можно больше разных аргументов в попытке выработать общее для всех моральное решение? Примерно так можно кратко описать идею когерентного экстраполированного воления (CEV), предложенную Элиезером Юдковским в качестве цели согласования для автономного ИИ общего назначения, а также в качестве этической теории. Рассказать об этой идее я хотел еще в прошлом году, но так пока и не добрался.

Тем, кто не читал (пока в основном непереведенную) цепочку Юдковского о метаэтике, может быть интересно узнать, что Юдковский считал себя моральным реалистом и отвергал обвинения в релятивизме. Однако, в то же время он учитывал ортогональность, отвергая возможность существования универсально убедительных философских аргументов и моральный интернализм. А результат предлагаемого им процесса экстраполяции может сильно зависеть от переменчивой обстановки в сфере человеческих ценностей, и наблюдающиеся глубокие ценностные разногласия между людьми порождают вопросы к его осуществимости и устойчивости. Поэтому ряд комментаторов настаивали, что подход Юдковского к морали все же релятивистский. Конечно, этот спор может оказаться просто терминологическим и порождаться конфликтом интуиций о том, какое содержание следует вкладывать в слово “релятивизм”.

А так, конечно, идея красивая. В контексте философии морали ее сравнивают, например, с теорией идеального наблюдателя и методом рефлективного равновесия.

Сроки

Я не особенно разбирался в теме сроков появления тех или иных видов ИИ, и желания углубляться в этот вопрос у меня пока нет.

Когда-то давно я немного читал о взрывном сценарии развития ИИ в «Перед лицом Сингулярности» Люка Мюлхаузера и где-то у Элиезера Юдковского, а также слышал о прогнозах Рэя Курцвейла (хотя читал у него я больше про другое — про вопросы архитектуры мозга и ИИ).

А недавно я перевел пост Магнуса Виндинга со списком источников, критикующих возможность взрывного развития ИИ. К сожалению, лишь некоторые пункты из его списка удалось найти на русском языке (зато среди них есть книги). Но возможно я переведу что-нибудь еще оттуда.

Освещение безопасности ИИ на YouTube

Сам я освещением этих тем на YouTube не занимаюсь, но этим занимаются, например, Минимизаторы Скрепок. В частности, Ян Лютнев (YouTube), уже озвучивший часть переведенных мной материалов с Арбитала. Так вот, Ян запрашивает помощь со сценариями и оформлением.

А что еще есть на русскоязычном YouTube на такие темы? Я видел переводы роликов Роберта Майлза, сделанные студией Vert Dider, перевод интервью с Юдковским («Элиезер Юдковский про ИИ, клубнику, банк спермы, режим бога и лучших ученых на острове»), а также неплохое видео у ALI (в основу которого легла статья «Искусственный интеллект как позитивный и негативный фактор глобального риска» Юдковского). Наверняка есть много чего еще, но я не особо слежу за темой.

А вот об s-рисках, к сожалению, ничего нет. Но недавно Rational Animations сняли красивый ролик на эту тему. Студия Vert Dider уже переводила и озвучивала некоторые их ролики, может и этот когда-нибудь будет? В любом случае можно было бы перевести субтитры для самого канала Rational Animations.

Взаимодействие с ИИ

Эта тема и так освещается множеством источников, а я довольно медленно вкатываюсь в новые технологии, так что мне в любом случае особо нечем поделиться. Ну, когда-то я немножко писал о такой штуке как Replika AI. А сейчас вот потихоньку осваиваю ChatGPT, он мне нравится.

искусственный_интеллект, глобальные_риски, счастье_и_несчастье

Кирдан

блог · темы · описание · ссылки