Джек Лодж

Первоначально опубликовано в публикации Deeplink Labs

· Введение
Умная маршрутизация заказов
Агрегация DEX
Искусственный интеллект, машинное обучение и глубокое обучение
Глубокое обучение с подкреплением< br /> · Как машинное обучение может улучшить интеллектуальные маршрутизаторы ордеров и агрегаторы DEX?
Проскальзывание
Концентрация ликвидности
Волатильность ликвидности
Распределение ликвидности
· Глубокое обучение с подкреплением для интеллектуальных маршрутизаторов заказов и агрегаторов DEX
Агенты в сети
Объединение Web 3 и машинного обучения
· Связанные работы
Обучение с подкреплением для задач оптимизации
Генетические алгоритмы для интеллектуальной маршрутизации ордеров и автоматизированной торговли
· Справочники

Введение

В этой статье рассматриваются текущие исследования Deeplink в отношении подходов и приложений машинного обучения как для интеллектуальной маршрутизации заказов, так и для агрегации DEX. Дается краткий обзор предварительных концепций, а также подробное объяснение того, как эта область исследования применима к рассматриваемым проблемам, и, наконец, изучается коллекция связанных работ.

В предыдущих статьях мы подробно описали как умную маршрутизацию ордеров, так и агрегацию DEX, чтобы полностью понять необходимость алгоритмов поиска пути для расширения этих пространств, мы рекомендуем прочитать эти статьи. Тем не менее, здесь также будет представлено краткое описание каждого из них, а также несколько важных предварительных концепций.

Умная маршрутизация заказов

Умная маршрутизация ордеров (SOR) — это автоматизированный процесс, в котором ордера на биржах обрабатываются с целью достижения наиболее желательного пути через торговые площадки. В DEX это обычно принимает форму поиска оптимального пути свопов по набору пулов ликвидности, чтобы воспользоваться глубиной ликвидности этих пулов и смягчить последствия фрагментированной ликвидности. Основной причиной беспокойства по поводу этой фрагментации ликвидности является отрицательное проскальзывание, убытки, понесенные из-за изменения спотовой цены в период между размещением ордера и его исполнением.

Агрегация DEX

DEX — это торговая площадка, состоящая из набора пулов ликвидности, которые облегчают обмен активами без центрального органа или необходимости для пользователей отказываться от хранения своих активов. DEX склонны к вышеупомянутым проблемам фрагментации ликвидности, поскольку их пары активов сегментированы в пулы ликвидности, и по мере появления все большего количества площадок общая ликвидность рынка становится все более и более тонкой.

Агрегаторы DEX предоставляют трейдерам больше ликвидности, чем может предоставить любая одна DEX, объединяя и подключая услуги нескольких DEX. Агрегатор DEX можно рассматривать по аналогии с такими сервисами, как Expedia или Google Flights, которые объединяют предложения от многочисленных авиакомпаний в один сравнительный сервис, предоставляя пользователям доступ к наилучшим возможным вариантам для их нужд.

Искусственный интеллект, машинное обучение и глубокое обучение

Искусственный интеллект относится к интеллекту, продемонстрированному машинами, в котором интеллект относится к возможностям принятия решений, обычно связанным с биологическим интеллектом. Машинное обучение — это разновидность искусственного интеллекта, которая относится к алгоритмам, способным обучаться. Глубокое обучение — это подмножество машинного обучения, происходящее от нейрона Маккаллоха-Питтса и персептрона Розенблатта, которое моделирует способ обработки информации биологическими нейронами.

Глубокое обучение с подкреплением

Глубокое обучение с подкреплением (DRL) строится на основе глубокого обучения путем дальнейшего внедрения аспектов биологии и психологии посредством введения методов обучения с подкреплением. Агенты DRL учатся решать проблемы или делать прогнозы, пытаясь максимизировать совокупное вознаграждение, аналогично модели поощрения и наказания. Пример функции вознаграждения для агента DRL, который учится играть в игру «Змея», может вознаграждать агента за сокращение расстояния между головой змеи и яблоком и наказывать агента за то, что он врезается в себя или стены.

Как машинное обучение может улучшить интеллектуальные маршрутизаторы заказов и агрегаторы DEX?

В агрегации DEX и SOR ликвидность является ключевым моментом. Разрешение вашим алгоритмам проводить глубокие корреляции между концентрацией ликвидности, распределением и волатильностью позволит вашим системам превзойти те, которые не учитывают эти факторы на такой глубине.

Методы машинного обучения широко используются в традиционных финансовых секторах, и вполне естественно, что эти полезные приложения в конечном итоге появятся в DeFi. Машинное обучение часто используется в традиционном SOR для оценки и выявления факторов, относящихся к ликвидности и волатильности, чтобы определить оппортунистические маршруты, ценообразование и размер ордера — мы считаем, что многие из этих практик напрямую применимы к агрегации DEX и SOR.

Внедряя индикаторы ликвидности с помощью высокоскоростных потоков данных с высокой степенью детализации, предоставляемых L3 Atom, модели машинного обучения могут выявлять сложные корреляции между этими факторами в измерениях, превышающих возможности людей-трейдеров, и могут использовать эти корреляции, чтобы превзойти услуги, которым не хватает такой глубины. понимание. Одной из основных областей, в которой эта технология может принести пользу, является предотвращение проскальзывания.

Проскальзывание

Нюансы и причины проскальзывания более подробно рассматриваются в нашей статье Умная маршрутизация ордеров, но по сути проскальзывание — это разница между ожидаемым и фактическим ценовым исполнением при размещении ордера на торговой площадке. Обычно это происходит, когда цена актива изменяется между моментом размещения ордера и временем исполнения этого ордера. Проскальзывание может быть положительным или отрицательным, а это означает, что разница в цене может быть как полезной, так и вредной для маржи рассматриваемого трейдера. Однако, когда упоминается этот термин, обычно имеется в виду отрицательное проскальзывание.

Методы машинного обучения могут использоваться для прогнозирования движения цен, индикаторов волатильности и ликвидности, которые играют важную роль в проскальзывании и его предотвращении. В следующих разделах описываются некоторые области, которые могут быть учтены в прогностической аналитике на основе машинного обучения и алгоритмах принятия решений на основе агентов, чтобы предоставить пользователям наиболее оптимальные сделки.

Концентрация ликвидности

В контексте DEX концентрация ликвидности относится к доступной ликвидности в пределах данного пула ликвидности. Из-за характера AMM на DEX проскальзывание из-за размещения крупных ордеров часто является даже более серьезной проблемой, чем на других типах площадок, поскольку концентрация ликвидности в пулах ликвидности DEX обычно меньше по сравнению с другими источниками ликвидности. При обмене токенов на DEX вы, по сути, добавляете один актив в пул ликвидности, одновременно удаляя другой, а затем функция сохранения AMM автоматически перебалансирует соотношение этих двух токенов. Это означает, что сделки в пулах с небольшой ликвидностью и функции сохранения могут чрезмерно компенсировать и вызвать резкие колебания цен, поскольку пропорциональное соотношение будет больше затронуто, что приведет к значительному проскальзыванию. Аналогично это можно представить как перемещение жидкости лодки (заказа) в водоеме (бассейн ликвидности); грязная лодка в реке практически не повлияет на уровень воды, но яхта в бассейне, безусловно, повлияет.

Концентрация ликвидности в первую очередь дает нам информацию о потенциальном проскальзывании внутри одного пула. Учет концентрации ликвидности отдельных пулов при агрегировании и маршрутизации через море площадок является ключевым элементом в обеспечении оптимальных торговых возможностей. Внедрение этих данных в модели машинного обучения может открыть возможности для маршрутизации, которые невооруженным глазом невозможно понять последствия глубины ликвидности. По своей концепции это похоже на метод интеллектуальной маршрутизации ордеров Balancer, заключающийся в линеаризации спотовых цен в пулах ликвидности, чтобы оценить изменение спотовой цены в результате размещения ордера, прогнозы, которые затем используются при выборе оптимального набора пулов для маршрутизации. Подробнее о том, как это работает, можно прочитать в нашей статье об автоматизированных маркет-мейкерах.

Ликвидность Волатильность

Имея в виду концепцию концентрации ликвидности, мы можем сделать вывод, что более крупные пулы ликвидности, как правило, менее волатильны, чем более мелкие, поскольку каждая отдельная сделка оказывает меньшее влияние на общую ликвидность пула. Однако концентрация ликвидности является лишь одним из факторов волатильности пула (как по цене, так и по ликвидности). Показатели волатильности — это широко изучаемый эконометрический предмет со многими своими нюансами, волатильность пула связана с глубиной его ликвидности, волатильностью цен на его базовые активы, его объемом, его репутацией и многими другими внешними и внутренними факторами. Из-за своей громоздкости и сложности волатильность также является темой, для которой особенно подходит машинное обучение.

Такие исследования, как эта исследовательская статья, опубликованная в Hindawi Complexity в 2021 году, Прогнозирование волатильности фондового индекса: модель глубокого обучения с функцией потерь, основанной на правдоподобии, в которой для прогнозирования волатильности использовались методы глубокого обучения с долговременной кратковременной памятью (LSTM). фондовых индексов. В этом проекте Фан Цзя и Боли Ян ввели исторические точки данных волатильности в свои модели глубокого обучения и сравнили их производительность с популярной традиционной эконометрической моделью, известной как авторегрессионное скользящее среднее и обобщенная условная гетероскедастичность (ARMA-GARCH).

Созданные модели представляли собой LSTM на основе правдоподобия и глубокие нейронные сети (DNN), а также среднеквадратичную ошибку (MSE) LSTM и DNN (всего четыре модели по сравнению с ARMA-GARCH). LSTM с потерей правдоподобия превзошла ARMA-GARCH вместе с другими моделями глубокого обучения.

Эти методы можно адаптировать для решения проблемы агрегации DEX и SOR путем создания модели LSTM для прогнозирования волатильности, которая использует исторические данные о волатильности отдельных пулов. Эти данные, по сути, представляют собой временные ряды, отображающие заказы на их соответствующее влияние на рынок с течением времени в рамках данного пула, создавая непрерывную историческую запись волатильности этого пула в ответ на заказы — данные, которые можно использовать для оценки влияния данного конкретного пула. ордер может повлиять на ликвидность пула и потенциальное проскальзывание, которое может возникнуть. Это также может быть дополнено историческими данными о движении цены, чтобы предоставить модели более широкое представление о системе.

После обучения модель может затем прогнозировать волатильность пула, просматривая данные о последних транзакциях, но также может подключаться к незаполненным транзакциям, обращаясь к мемпулу блокчейна — реестру, в котором транзакции блокчейна ждут, прежде чем будут обработаны как транзакции и навсегда присоединены к цепочке. .

Распределение ликвидности

Если о концентрации ликвидности можно думать как о водоеме, то о распределении ликвидности можно думать как о системе водоемов, соединенных реками и ручьями. Пользователь может захотеть взглянуть на эти отдельные водоемы (бассейны ликвидности) с высоты птичьего полета и рассмотреть их как сеть, прежде чем решить, какой из них лучше всего подходит для его лодки (порядок). Может быть даже так, что их лодка слишком велика для любого из пулов, и ее лучше разбить на более мелкие лодки и разместить в нескольких.

Другими словами, распределение ликвидности дает нам представление о потенциальном проскальзывании в сети пулов ликвидности. В контексте DEX (и тем более агрегатора DEX) нетрудно понять, почему эта информация будет иметь большое значение при маршрутизации ордеров.

Распределение ликвидности имеет ключевое значение, когда речь идет о крупных транзакциях, особенно когда количество задействованных активов превышает пороговое значение, при котором заказы в таких количествах могут значительно нарушить работу пула или даже могут превышать всю ликвидность этого пула. В таких случаях как для трейдера, так и для экосистемы в целом было бы лучше распределить этот заказ по нескольким каналам, чтобы не остановить цепочку поставок, поскольку это, безусловно, вызовет движение цены, которое почти наверняка привести к неблагоприятному проскальзыванию со стороны этого трейдера и может привести к более серьезным негативным последствиям для всей сети.

Глубокое обучение с подкреплением для интеллектуальных маршрутизаторов заказов и агрегаторов DEX

Использование моделей машинного обучения для создания прогностических метрик для использования в более традиционных алгоритмических подходах оказалось весьма эффективным решением, например, такие модели можно использовать для генерации весов, соединяющих узлы пула ликвидности, как описано в нашей статье Поиск пути. алгоритмы для агрегаторов DEX и SOR.»

Сетевые агенты

Возможно, использование методов машинного обучения на основе агентов, таких как глубокое обучение с подкреплением, позволяет формировать модели, которые интерпретируют и реагируют на коррелированные переменные таким образом, который мы, люди, можем не обнаружить. По сути, ончейн-агент — это встроенный в блокчейн вычислительный агент, способный обрабатывать данные, обучаться и выполнять такие действия, как транзакции в блокчейне.

Объединение Web 3 и машинного обучения

Применение глубокого обучения с подкреплением к блокчейнам представляет большой интерес для Deeplink и уже некоторое время является предметом прямых исследований. Оставайтесь с нами на наших каналах публикаций, чтобы быть в курсе новостей о проекте, основанном именно на таких методах.

Агентам обучения с подкреплением требуется среда, в которой они могут действовать. Таким образом, чтобы облегчить работу агентов в сети, мы должны сначала преобразовать нашу проблему Web 3 в сопоставимую среду обучения с подкреплением. Самый популярный способ преобразования любой данной проблемы в среду обучения с подкреплением — это использование OpenAI’s Gym API, фреймворка классов обучения с подкреплением для Python. Это включает в себя разбиение данной проблемы на повторяющиеся шаги, которые могут быть представлены следующими функциями Python:

__init__(сам)

  • Используется для установления переменных, используемых для обучения с подкреплением, а именно пространства наблюдения (пространства всех возможных наблюдений, которые агент может сделать в этой среде) и пространства действий (пространства всех возможных действий, которые агент может совершать в этой среде).

шаг(я, действие)

  • Это называется один раз на каждый «шаг» среды, в случае игры это может быть один кадр или один ход.

сбросить(самостоятельно)

  • Это одновременно запускает среду при первом запуске и сбрасывает ее после завершения эпизода.

В контексте проблем Web 3, таких как агрегация DEX и SOR, это может быть относительно сложным процессом, не только сценарий должен быть переведен в отдельные повторяющиеся шаги, но и возможность подключения Web 3 должна быть изначально встроена в саму среду. По сути, этот процесс можно рассматривать как создание DApp для вашей среды обучения с подкреплением, DApp, который либо выполняет транзакции напрямую через Web3.py/Web3.js, либо действует как хранитель смарт-контрактов, инструктируя их транзакция через переменные TX или интеграцию с оракулом. Этому сценарию также может потребоваться считывать данные из блокчейна, такие как балансы, хэши транзакций и т. д., и все это также можно обрабатывать с помощью библиотек Web 3.

Также вероятно, что в таких случаях использования, как агрегация DEX и SOR, обучение модели лучше всего проводить в смоделированных средах, а не на живых биржах с реальными активами. Это можно сделать в частных тестовых сетях командной строки, таких как Ganache, или в реальных тестовых сетях, таких как Rinkeby или Goerli. Преимущество частных тестовых сетей заключается в возможности контролировать средства без необходимости запрашивать средства тестовой сети через сборщик, однако это может несколько ограничить возможности, поскольку частные тестовые сети, такие как Ganache, несовместимы с функциями оракула. Кроме того, если получение средств тестовой сети через сборщики является проблемой для вашего проекта, может быть подходящим обходным путем развертывание репрезентативных токенов ERC20 (или других) в качестве заменителей для целей тестирования.

Затем поверх этой тестовой сети могут быть созданы DApps, которые имитируют сценарий, который вы хотите оптимизировать, как правило, это будет встроено в сценарий среды обучения с подкреплением, но может быть внешним по отношению к нему — в этом случае сценарий среды может просто извлекать данные из скрипта, запускающего симуляции. Например, вполне вероятно, что для надлежащего обучения и тестирования агрегации DEX и глубокого SOR потребуется надлежащий механизм обратного тестирования (бумажная торговля, смоделированная биржа, которая может использовать или не использовать реальные данные с биржи, которую она зеркально отображает). агент обучения с подкреплением. Механизмы обратного тестирования могут быть более сложными, чем просто API, которые считываются с биржи, например, может быть целесообразно включить функциональность, чтобы собственные заказы агента оказывали влияние на сам рынок. Один из способов приблизиться к этому — агрегировать реальные рыночные ордера, которые в сумме составляют ордер агента, и рассматривать их как ордера агента в этот период времени.

Связанных с работой

В дополнение к концептуальному исследованию того, как машинное обучение может быть применено к нашей конкретной проблеме, Deeplink также проводит обширный обзор литературы по передовым методам машинного обучения, которые могут быть использованы для наших целей. В этом разделе, написанном Приянкой Пурсани Исрани, исследуются некоторые из наших наиболее интересных находок.

Обучение с подкреплением для задач оптимизации

В различных исследованиях обучение с подкреплением использовалось для задач оптимизации, таких как разработка игр, оптимизация сети и т. д. NVIDIA (Roy et al., 2021) представила новую технику, которая использует искусственный интеллект для создания более эффективных, быстрых и меньших по размеру схем. . Результатом является повышение уровня функциональности с каждым новым поколением чипов. Это показывает, что глубокое обучение с подкреплением может научить ИИ создавать эти схемы с нуля. На рис. 2 показана архитектура предлагаемого подхода, а на рис. 3. показывает, что предложенный метод Prefix RL превосходит другие современные методы.

Авторы разработали MLGO1 (Perolat et al., 2021) — платформу для систематического добавления методов машинного обучения в промышленный компилятор под названием LLVM. В демонстрационных целях представлено описание того, как и почему модели машинного обучения используются вместо эвристики для улучшения LLVM при оптимизации подкладки по размеру. По сравнению с современным LLVM-Oz модель подкладки по размеру была обучена с использованием двух разных алгоритмов машинного обучения: градиента политик и стратегий развития. После нескольких месяцев активной разработки одна и та же модель, обученная на одном корпусе, хорошо обобщается для множества реальных целей, а также для одного и того же набора целей. Это свойство обученной модели полезно для развертывания методов машинного обучения в реальных условиях.

Исследователи DeepMind предложили DeepNash (Perolat et al., 2022), автономный агент, способный освоить игру Stratego с несовершенной информацией, был предложен исследователями DeepMind. Он может играть в игру на уровне, сравнимом с человеком-экспертом. Чтобы изучить Stratego самостоятельно, DeepNash использует безмодельный подход к глубокому обучению с подкреплением, который не полагается на поиск. Непосредственно изменяя базовую динамику мультиагентного обучения, алгоритм регуляризованной динамики Нэша (R-NaD), основной компонент DeepNash, сходится к приблизительному равновесию Нэша, а не «зацикливается» вокруг него. На игровой платформе Gravon, где она столкнулась с людьми-экспертами Stratego, DeepNash ежегодно (2022 г.) и за все время занимала первое место в тройке лидеров, превзойдя современные методы искусственного интеллекта, используемые в настоящее время. Обзор стратега и предлагаемого алгоритма представлен на рис. 4.

В предлагаемом исследовании (Хамфрис и др., 2022) команда разрабатывает агент на основе полупараметрической модели, который может прогнозировать будущие политики и ценности на основе будущего поведения в конкретном состоянии. Они также включают механизм поиска, который позволяет модели извлекать данные из значительного набора данных, чтобы помочь в их прогнозах. Авторы исследовали эту стратегию в го, сложной игре, в которой большое комбинаторное пространство состояний отдает предпочтение обобщению, а не прямому сопоставлению с предыдущим опытом. Кроме того, они использовали быстрые методы аппроксимации ближайших соседей для извлечения полезной информации из набора данных, содержащего десятки миллионов состояний, используемых в демонстрациях экспертов. Это убедительная демонстрация ценности крупномасштабного поиска в агентах RL, поскольку внимание к нему значительно повышает точность прогнозирования и производительность игрового процесса по сравнению с простым использованием этих демонстраций в качестве обучающих траекторий.

Экономист ИИ (Zheng et al., 2022), представленный Salesforce AI, представляет собой систему обучения с подкреплением (RL), которая превосходит альтернативные налоговые системы, изучая динамическую налоговую политику для максимального равенства и производительности в смоделированных экономиках. AI Economist значительно превосходит базовые показатели в улучшении как утилитарного социального благосостояния, так и компромисса между равенством и производительностью в пространственно-временной экономике. Он делает это даже несмотря на то, что появляются новые способы ухода от налогов. Он также учитывает новую специализацию труда, взаимодействие между агентами и изменения в поведении. Полученные данные доказывают, что двухуровневый, глубокий подход RL к экономике дополняет экономическую теорию и прокладывает путь к стратегии на основе ИИ для разработки и понимания экономической политики.

Генетические алгоритмы для интеллектуальной маршрутизации ордеров и автоматической торговли

Исследование, рассмотренное в этом разделе, сосредоточено на генетических алгоритмах и методах машинного обучения для автоматической торговли, в отличие от использования обучения с подкреплением для общей задачи оптимизации, предложенной выше.

(Xu, 2015) предложил модель частичного равновесия с непрерывным временем для оптимальных стратегий HFT без каких-либо обучающих или манипулятивных ингредиентов, чтобы рационализировать действия по пингу, которые наблюдались в данных. Анализируя прошлый трафик сообщений, автор может реконструировать книги лимитных ордеров и дать характеристику оптимальных стратегий, используемых HFT, когда моя модель решается с использованием метрики вязкости. Затем влияние модели на эхо-тестирование сравнивается с данными. Результат показывает, что пинг — это не всегда способ обмануть людей, и его можно рассматривать как часть динамических торговых стратегий HFT.

(Liu, 2015) предложил стратегию дефицита (IS) с использованием метода моделирования на основе агентов. Автор сосредоточился на создании искусственного фондового рынка для анализа оптимальных стратегий исполнения. Для этого рынка также разрабатываются механизмы формирования заказов, очистки рынка и распространения информации. Используемые методы представляют собой генетические алгоритмы для численной оптимизации.

(Xu and Carruthers, 2018) предложили методы машинного обучения, такие как регрессор случайного леса, регрессор повышения градиента, регрессор многослойного перцептрона и логистическая регрессия для размещения агрессивных заказов (заказов, предназначенных для немедленного выполнения) за счет минимизации клиентских комиссий за транзакции и достижения наилучших результатов. цена от сделки. Также предлагаемый метод определяет подходящее место для проведения агрессивного ордера. Более того, для принятия решения используется ансамблевое голосование, т. е. объединение всех четырех моделей машинного обучения. Данные собираются из их торговых систем, которые включают данные уровня II по всем находящимся в обращении казначейским облигациям США на нескольких площадках в 2017 году.

(Kearns & Nevmyvaka, 2013) представил преимущества и недостатки подхода машинного обучения к HFT и микроструктуре рынка. Авторы также приняли во внимание проблемы чистого исполнения во времени и пространстве, а также проблемы прогнозирования выгодных изменений в стратегии. Они также обсудили подходы машинного обучения для интеллектуальной маршрутизации ордеров в темных пулах и обучения с подкреплением для оптимизации исполнения сделок. Из исследования авторы пришли к выводу, что методы ML не могут обеспечить лучшую оптимизацию из-за их природы черного ящика, но если они сосредоточены на разработке функций и точной настройке гиперпараметров, то лучше использовать методы ML.

Рекомендации

  1. Саркер И., «Глубокая кибербезопасность: всесторонний обзор с точки зрения нейронной сети и глубокого обучения», SN Computer Science. 2. 10.1007/с42979–021–00535–6. , 2021.
  2. Рой, Р., Райман, Дж., Кант, Н., Элькин, И., Кирби, Р., Сиу, М., … и Катандзаро, Б. (2021, декабрь). Prefixrl: оптимизация параллельных префиксных цепей с использованием глубокого обучения с подкреплением. На 58-й конференции ACM/IEEE Design Automation (DAC) 2021 г. (стр. 853–858). IEEE.
  3. Трофин М., Цянь Ю., Бревдо Э., Лин З., Хоромански К. и Ли Д. (2021). Mlgo: платформа оптимизации компилятора, управляемая машинным обучением. препринт arXiv arXiv:2101.04808.
  4. Перола, Дж., де Вильдер, Б., Хеннес, Д., Тарасов, Э., Струб, Ф., де Бур, В., … и Туйлс, К. (2022). Освоение игры Stratego с многоагентным обучением с подкреплением без использования моделей. препринт arXiv arXiv:2206.15378.
  5. Хамфрис, П. К., Гез, А., Тилеман, О., Сифре, Л., Вебер, Т., и Лилликрап, Т. (2022). Крупномасштабный поиск для обучения с подкреплением. препринт arXiv arXiv:2206.05314.\
  6. Чжэн, С., Тротт, А., Шриниваса, С., Паркес, Д. К., и Сочер, Р. (2022). AI Economist: разработка налоговой политики с помощью двухуровневого глубокого мультиагентного обучения с подкреплением. Научные достижения, 8(18), eabk2607.
  7. Сюй, Дж. (2015, ноябрь). Оптимальные стратегии высокочастотных трейдеров. В документе конференции AFA 2015 в Бостоне.
  8. Лю, К. (2015). Оптимальные стратегии выполнения: вычислительный подход к финансам (магистерская работа, Университет Ватерлоо).
  9. Реньюань Сюй, Исаак Каррутерс, «Машинное обучение для маршрутизации лимитных ордеров в денежном казначействе». Опубликовано Quantitative Brokers в июне 2018 года.
  10. Кернс, М., и Невмывака, Ю. (2013). Машинное обучение для микроструктуры рынка и высокочастотной торговли. Высокочастотный трейдинг: новые реалии для трейдеров, рынков и регуляторов.
  11. Хиндави, Сложность, Фанг Цзя, Боли Ян, Прогнозирование волатильности фондового индекса: модель глубокого обучения с функцией потерь на основе правдоподобия, 2022 г. https://downloads.hindawi.com/journals/complexity/2021/5511802.pdf
  12. OpenAI Gym, OpenAI, тренажерный зал, https://github.com/openai/gym, 2022 г.