QUANT [22]ペーパー2:金融信号の表現と取引のための深い直接強化学習



Quant Paper 2 Deep Direct Reinforcement Learning



「IEEETRANSACTIONSON NEURAL NETWORKS ANDLEARNINGSYSTEMS」に掲載されたゾーンSCIジャーナル

論文の構造:


1、はじめに(主にDL RL学習および意思決定機能の実行からの総説が記載されています)



2、関連作品(RLおよびDL関連の知識の紹介)

3、直接深層強化学習(トピックセクション、モデル構築順序)



4、DRNN学習(モデルの初期化、トレーニング方法)

5、実験的検証(多重比較法)

用語の定義



TC貿易手数料

概要

要約—金融アサーション取引で経験豊富なトレーダーを打ち負かすようにコンピューターをトレーニングできますか?この論文では、リアルタイムの金融信号の表現と取引のための反復ディープニューラルネットワーク(NN)を導入することにより、この課題に対処しようとしています。私たちのモデルは、深層学習(DL)と強化学習(RL)の2つの生物学関連の学習概念に触発されています。フレームワークでは、DL部分は、有益な特徴学習のための動的な市場状況を自動的に感知します。次に、RLモジュールは深い表現と相互作用し、取引の決定を下して、未知の環境で究極の報酬を蓄積します。学習システムは、深い構造と反復構造の両方を示す複雑なNNに実装されています。したがって、深層トレーニングにおける勾配消失問題に対処するために、時間法によるタスク認識の逆伝播を提案します。神経システムの堅牢性は、幅広いテスト条件下で株式と商品先物市場の両方で検証されています。

金融取引で経験豊富なトレーダーを打ち負かすようにコンピューターをトレーニングできますか?この記事では、再帰的な深度ニューラルネットワーク(NN)を導入することでこの課題に対処しようとします。これは、リアルタイムの金融および取引シグナルを表すために使用されます。私たちのモデルは、深層学習(DL)と強化学習(RL)という2つの概念を学習することの生物学的関連性に触発されています。このフレームワークでは、DLの部分的に自動化されたセンシング機能の学習情報と動的な市場の状況。次に、RLはモジュールとの相互作用の深さを表し、取引の決定を行います。これは、未知の環境に蓄積された最終的な報酬です。ニューラルネットワークに実装された複雑なニューラルネットワークの学習システムは、深さと再帰的な構造を持っています。したがって、問題の消失における勾配深度トレーニングに対処するために、タイムバックプロパゲーション法のタスク知覚を提案します。広範なテスト条件、神経系、株式市場の頑健性において、商品先物が検証されています。

前書き

自動化された金融アサート取引のためのDeepDirect Reinforcement LeTrainingインテリジェントエージェントは、現代の人工知能[1]で広く議論されてきた昔ながらのトピックです。基本的に、取引のプロセスは、市場の状況の要約と最適なアクションの実行という2つの重要なステップを含むオンラインの意思決定の問題としてよく表されています。従来の学習タスクと比較して、動的な意思決定は、人間の専門家からの監視された情報が不足しているため、より困難です。したがって、エージェントは、未知の環境をすべて単独で探索し、同時にオンラインで正しい決定を行う必要があります。金融信号の表現と取引のための警告

このような自己学習の追求は、行動制御の神経科学分野に深く根ざした理論を備えた、生物学に触発されたフレームワークであるRLの長期的な開発を促進しました[2] – [4]。理論的な観点から、確率的最適制御問題は先駆的な研究でうまく定式化されました[2]。実際のアプリケーションでは、RLの成功は、ロボットのナビゲーション[5]、アタリゲームのプレイ[6]、ヘリコプターの制御[7]などの多くのタスクで広く実証されています。一部のテストでは、RLは、最適制御ポリシーの実施において人間の専門家よりも優れています[6]、[8]。したがって、それは取引の文脈で興味深い質問につながります:金融市場で経験豊富な人間のトレーダーを打ち負かすためにRLモデルを訓練することができますか?従来のRLタスクと比較すると、次の2つの課題があるため、アルゴリズム取引ははるかに困難です。

最初の課題は、金融環境の要約と表現の難しさに起因します。財務データには、非常に非定常な時系列につながる大量のノイズ、ジャンプ、および動きが含まれています。データのノイズと不確実性を軽減するために、通常、移動平均または確率的テクニカル指標[9]などの手工芸品の財務的特徴が抽出され、市場の状況が要約されます。テクニカル分析の理想的な指標の検索[10]は、定量的ファイナンスで広く研究されてきました。ただし、テクニカル分析の広く知られている欠点は、一般化能力が低いことです。たとえば、移動平均機能は傾向を説明するのに十分ですが、平均回帰市場では大きな損失を被る可能性があります[11]。事前定義された手工芸品の機能を活用するのではなく、データから直接、より堅牢な機能表現を学習できますか?

2番目の課題は、トレーディングアクション実行の動的な動作によるものです。取引注文の発行は体系的な作業であり、多くの実際的な要因を考慮に入れる必要があります。頻繁に取引ポジション(ロングまたはショート)を変更しても、利益には何の影響もありませんが、取引コスト(TC)とスリッページのために大きな損失につながります。したがって、現在の市況に加えて、歴史的行動とそれに対応するポジションは、一方で、政策学習の部分で明示的にモデル化する必要があります。複雑さを追加することなく、このような記憶現象を取引システムにどのように組み込むことができますか?

前述の2つの質問に対処する際に、このペーパーでは、オンライン金融アサーション取引の同時環境センシングと反復意思決定のための新しいRDNN構造を紹介します。 RDNNの大部分は、特徴学習用のDNNとRL用のリカレントニューラルネットワーク(RNN)の2つの部分で構成されています。市場要約のロバスト性をさらに向上させるために、入力データの不確実性を減らすためにファジー学習の概念が導入されています。 DLは、画像や音声の認識など、多くの信号処理の問題で大きな期待を示していますが、私たちの知る限り、これは、金融信号表現と独学の強化取引のための実際の取引システムの設計にDLを実装した最初の論文です。学習モデル全体は、深い構造と反復構造の両方を含む非常に複雑なNNにつながります。リカレント構造を処理するために、BPTTメソッドを利用して、フィードバックなしで一連の時間依存スタックとしてRNNを展開します。 RLスコアをすべてのレイヤーに伝播する場合、勾配消失問題は必然的にトレーニングフェーズに関係します。これは、展開されたNNが、特徴学習と時間拡張の両方の部分で非常に深い構造を示すためです。したがって、この落とし穴を克服するために、タスク対応BPTTと呼ばれるより合理的なトレーニング方法を紹介します。私たちのアプローチでは、目的関数からのいくつかの仮想リンクは、バックプロパゲーション(BP)トレーニング中に深い層に直接接続されます。この戦略は、深い部分に最終目標で何が起こっているかを確認する機会を提供し、したがって、学習効率を向上させます。 DDR取引システムは、将来の契約取引のために実際の金融市場でテストされています。詳細には、株価指数先物(IF)と商品先物の両方の過去の価格を累積します。これらの実際の市場データは、パフォーマンスの検証に直接使用されます。ディープRLシステムは、さまざまなテスト条件下で他のトレーディングシステムと比較されます。比較は、DDRシステムとそのファジー拡張がさまざまな市場条件に対して非常に堅牢であり、さまざまな将来の市場で信頼できる利益を生み出す可能性があることを示しています。このホワイトペーパーの残りの部分は、次のように構成されています。セクションIIは、一般的にRLとDLに関するいくつかの関連する作業をレビューします。セクションIIIでは、RDNNトレーディングモデルの詳細な実装とそのファジー拡張を紹介します。提案されたタスク対応BPTTアルゴリズムは、RDNNトレーニングのセクションIVで紹介されます。セクションVは、DDRのパフォーマンスを検証し、他のトレーディングシステムと比較する実験的な部分です。セクションVIはこのペーパーを締めくくり、いくつかの将来の方向性を示します。

金融資産の自動取引深度インテリジェントエージェントの直接集中トレーニングは、長く広く議論されているトピックにおける現代の人工知能[1]の歴史です。本質的に、トランザクションプロセスは、市場の状況に関連するオンラインの決定問題と、2つの主要なステップを実装するためのアクションの最良の要約としてよく説明されています。従来の学習タスクと比較して、人間の専門家からの監視情報が不足しているため、動的な意思決定はより困難です。したがって、オンラインで正しい決定を下すには、独自のエージェントが未知の環境を探索する必要があります。代理および金融取引のシグナル

生物学に触発されたフレームワークである長期的な開発rlを促進するための自己学習のこの追求は、理論は神経科学の行動制御の分野に深く根ざしています。理論的な観点から、確率的最適制御問題は先駆的な研究[2]で十分に説明されています。実際のアプリケーションでは、RLは、ロボットナビゲーション[5]、アタリゲーム[6]、ヘリコプター制御[7]など、さまざまな証拠で多くのタスクに成功しています。一部のテストでは、RLは、人間の専門家よりも最適な制御戦略[6]、[8]でさえ実行されました。したがって、トランザクションのコンテキストでは、興味深い質問が発生します。次の2つの課題、アルゴリズムにより、従来のRLタスクと比較して、金融市場で経験豊富な人間のトレーダーを打ち負かすためにRLモデルをトレーニングできますか?トランザクションはより困難です。

最初の課題は、要約財務諸表と環境の難しい側面から来ています 。財務データには多くのノイズ、ジャンプ、移動が含まれているため、非常に非定常な時系列になります。ノイズと不確実性のデータを減らすために、通常は移動平均やランダムな技術仕様[9]などの手動で抽出された財務上の特徴を使用して、市場の状況を要約します。理想的なテクニカル分析指標を探すことは、定量的ファイナンスで広く研究されてきました。ただし、テクニカル分析の欠点は一般化が不十分であることはよく知られています。たとえば、傾向を説明するのに十分な移動平均特性ですが、平均回帰市場[11]では大きな損失を被る可能性があります。事前定義されたプロパティを手動で開発します。データ表現から直接、より堅牢な機能を学習することをお勧めしますか?

2番目の課題は、実行されるトランザクションの動的な動作にあります。 シングルは仕事のシステムであり、私たちは多くの実際的な要因を考慮する必要があります。取引ポジション(ロングまたはショート)の頻繁な変更は、利益に貢献するだけでなく、取引コスト(TC)とスリップが巨額の損失を引き起こしたためです。したがって、現在の市況に加えて、政策学習セクションでは、モデルに対応する行動と立場の履歴についても明確にする必要があります。に 複雑さを増すことなく、この現象がどのように取引システムに組み込まれたかを覚えていますか?

これら二つの問題に応えて、我々は提案する 新しい構造RDNN 、オンライン金融取引の資産は状況認識と意思決定を再帰的に行います。
RDNNの大部分は2つの部分で構成されています学習およびRLリカレントニューラルネットワーク(RNN)用のDNN機能
市場サマリーの堅牢性をさらに向上させるために、入力データの不確実性を低減するファジー学習の概念。
DLは、画像および音声認識の多くの信号処理問題で大きな可能性を示していますが、私たちの知る限り、これは、自己表現および紙の取引システムを強化する実際の金融信号の設計に適用されるDLの最初のものです。
は、学習モデル全体の非常に複雑なニューラルネットワークであり、 深さ構造と再帰構造
再帰的構造を処理するために、BPTTメソッドを使用するRNNは、フィードバックを変更せずにシリーズスタックを拡張します。
スコアがすべてのレイヤーに伝播したときのRLは、必然的にトレーニングフェーズの勾配が消えることを伴います。
これは、ニューラルネットワークの学習と拡張の両方の時間拡散が深い構造的特徴を示しているためです。
したがって、この欠陥を克服するために、知覚タスクBPTTと呼ばれるより合理的なトレーニング方法を導入しました。
私たちのアプローチでは、バックプロパゲーション(BP)の深いトレーニングに直接関連するいくつかの仮想リンクの目的関数。
この戦略は、学習効率を向上させるために、最終的な目標を深く理解する機会を提供します。
DDR取引システムは、実際の金融市場で取引されるQIHUO契約でテストされています。
詳細には、株価指数先物(IF)と商品先物価格の履歴を蓄積しています。
パフォーマンス検証のために直接実際の市場データ。
異なるテスト条件下で、RLの深さは他の取引システムと比較されます。
結果は、DDRシステムがそのファジーロバストをさまざまな市場条件に拡張し、将来的にさまざまな市場で信頼できる利益を獲得したことを示しています。
このホワイトペーパーの残りの部分は、次のように構成されています。
第2部では、RLとDLに関する作業を確認します。
3番目の特定の実装の詳細と拡張RDNNファジーモデルトランザクションの一部。
BPTT知覚タスク提案アルゴリズムについては、トレーニング用のセクションIV、RDNNで説明します。
5番目の部分は実験的な部分です。パフォーマンスDDRを検証し、他のトレーディングシステムと比較します。
記事の第6部は要約され、将来の研究の方向性を提案しました。

II。関連事業

RL [12]は、人気のある自習[13]パラダイムであり、開発されたマルコフ決定問題[14]を解決することです。学習目標に応じて、 典型的なRLは一般的に(学習価値関数)の批判に基づいて分けることができ、行動ベース(行動学習)は2つのタイプです 。重要なアルゴリズムに基づいて、直接推定は、この分野でRLフレームワークの値の最も使用される関数である可能性があります。これらの値関数ベースの方法。 離散空間での最適化問題の場合、通常はTD学習またはQ学習[15]で解決します。数値最適化問題関数 合格できる 動的計画法[16] 解決する。

この方法は関数の値に基づいていますが(キー値ベースの方法とも呼ばれます)、多くの問題でうまく機能しましたが、[17]および[18]として、トランザクションで示された問題の良い例ではありません。 。これは、取引環境が複雑すぎて離散空間で近似できないためです。一方、q学習の典型的なプロパティでは、将来に関して定義されたコスト関数には、常に割引された利点[17]の再コーディングが含まれます。オンラインで利益を計算するために必要なトランザクションの性質。取引またはシステムの意思決定部分の一部が将来の市場情報を許可しないという意味で。オフラインスケジューラ問題[15]のコスト関数に基づくことは可能ですが、動的[17]のオンライントランザクションの場合、[19]はあまり満足のいくものではありません。したがって、さまざまな機能の価値を学び、先駆的な研究[17]は、所属ベースのフレームワークの直接参加者を操作する方法を学ぶことを推奨しています。

RLのパラメータ化されたファミリ定義の戦略ベースのアクターからの一連の連続操作。関数の値に基づく典型的な方法では、最適化は常に複雑な動的計画法に依存して、各状態の最適な動作を実現します。行動ベースの最適化の学習ははるかに簡単で、潜在的なターゲットパラメーターを持つ微分可能な関数のみが必要です。さらに、(Q学習で)さまざまな市場を説明するためのいくつかの個別の状態ではなく、ポリシーの継続的(市場機能)から直接学習アクターの感覚データに基づいています。要約すると、参加者に基づく方法には2つの利点があります。1)柔軟な最適化ターゲット、2)継続的な市場の説明。したがって、それは取引フレームワークのQ学習方法よりも優れています。 [17]と[19]では、参加者の学習に基づいてDRLと呼ばれていますが、一貫性を維持するために、ここでもDRLを使用します。

優れたトレーディングモデルのDRL定義ですが、学習の方向特性を指定していませんでした。ご存知のとおり、機械学習パフォーマンスの堅牢な機能表現は重要です。学習用のストックデータのコンテキストでは、[20]から-さまざまな機能[22]複数のビューがポリシーを表現しました。堅牢な特徴抽出システムの失敗したトランザクション処理パフォーマンスは、高いデータ市場の不確実性に悪影響を与える可能性があります。直接拡張トランザクション(DRT)の分野では、特徴抽出器の財務分析としてスパースコーディングモデルを導入しようとしたDeng。 DRLと比較して、より信頼性の高いパフォーマンスを実現するスパース機能。

学習のためのスパースコーディング機能[23]-[25]、[36]を認めながら、それは本質的に、パフォーマンスの幅広いテスト[26]、[27]におけるデータ表現戦略の浅い層です。最先端のDLと比較することはできません。 DLは、大規模な研究特性からのデータを堅牢にする新しいテクノロジーです。画像分類[26]と音声認識[29]のDL技術は成功を収めています。これらのアプリケーションでは、DLは主にトレーニングサンプルの多数のプロパティからの自動検出情報に使用されます。しかし、私たちの知る限り、DLのマイニングファイナンスシグナルに関する作業はほとんどありません。このペーパーキャパシティDLは、金融信号処理と学習の新しい分野に拡張されています。リアルタイム取引システムを主張するように設計された金融取引であるDRLと組み合わせたDLモデル。

RL [12]は、マルコフ決定問題[14]を解決するために開発された、一般的な独学の学習[13]パラダイムです。さまざまな学習目標に応じて、一般的なRLは、一般に、批評家ベース(学習価値関数)とアクターベース(学習アクション)の2つのタイプに分類できます。評論家ベースのアルゴリズムは、おそらくフィールドで最も使用されているRLフレームワークである価値関数を直接推定します。これらの値関数ベースの方法、たとえばTD学習またはQ学習[15]は、離散空間で定義された最適化問題を解決するために常に適用されます。値関数の最適化は、動的計画法[16]によって常に解決できます。

価値関数ベースの方法(批評家ベースの方法としても知られています)は多くの問題に対してうまく機能しますが、[17]と[18]に示されているように、それは取引問題の良いパラダイムではありません。これは、取引環境が複雑すぎて離散空間で概算できないためです。一方、典型的なQ学習では、価値関数の定義には常に、将来の割引収益を記録する用語が含まれます[17]。取引の性質上、オンラインで利益を数える必要があります。取引システムの感覚部分または政策決定部分のいずれにおいても、いかなる種類の将来の市場情報も許可されていません。値関数ベースの方法はオフラインスケジューラの問題[15]にはもっともらしいですが、動的オンライン取引[17]、[19]には理想的ではありません。したがって、価値関数を学習するのではなく、先駆的な研究[17]は、アクターベースのフレームワークに該当するアクションを直接学習することを提案しています。

アクターベースのRLは、パラメーター化されたポリシーファミリーから直接一連の継続的なアクションを定義します。典型的な値関数ベースの方法では、最適化は常にいくつかの複雑な動的計画法に依存して、各状態で最適なアクションを導き出します。アクターベースの学習の最適化ははるかに単純であり、潜在的なパラメーターを持つ微分可能な目的関数のみが必要です。さらに、(Q学習で)いくつかの個別の状態で多様な市場の状況を説明するのではなく、アクターベースの方法は継続的な感覚データ(市場の特徴)から直接ポリシーを学習します。結論として、アクターベースの方法には2つの利点があります。1)最適化の柔軟な目的と2)市場の状況の継続的な記述です。したがって、Q学習アプローチよりも優れた取引フレームワークです。 [17]と[19]では、アクターベースの学習はDRLと呼ばれ、一貫性を保つためにここでもDRLを使用します。

DRLは優れた取引モデルを定義しますが、特徴学習の側面に光を当てることはありません。機械学習のパフォーマンスには、堅牢な機能表現が不可欠であることが知られています。株式データ学習のコンテキストでは、さまざまな特徴表現戦略が複数のビューから提案されています[20] – [22]。堅牢な特徴の抽出に失敗すると、不確実性の高い市場データの処理に関する取引システムのパフォーマンスに悪影響を与える可能性があります。直接強化取引(DRT)の分野では、Deng etal。 [19]財務分析の特徴抽出器として、スパースコーディングモデルの導入を試みます。スパース機能は、株IFを取引するためにDRLよりもはるかに信頼性の高いパフォーマンスを実現します。

特徴学習のためのスパースコーディングの一般的な有効性を認める一方で[23] – [25]、[36]、それは本質的に浅いデータ表現戦略であり、そのパフォーマンスは広範囲で最先端のDLに匹敵しません。テスト[26]、[27]。 DLは、ビッグデータからの堅牢な特徴学習を可能にする新しい手法[28]です。 DL技術の成功は、画像の分類[26]と音声認識[29]で目撃されています。これらのアプリケーションでは、DLは主に、大量のトレーニングサンプルから有益な機能を自動的に検出するのに役立ちます。ただし、私たちの知る限り、金融信号マイニングのDLに関する既存の作業はほとんどありません。このホワイトペーパーでは、DLの能力を、金融信号処理と学習の新しい分野に一般化しようとします。 DLモデルをDRLと組み合わせて、ファイナンシャルアサーション取引用のリアルタイム取引システムを設計します。

III。直接的な深層強化学習

A.直接補強取引

主に以下の点があります

  • ムーディーなDRLフレーム[30]、典型的なDRLは本質的に単層RNNです
  • TCはコストの問題を提起しました
  • TPは直接報酬と呼ぶことができます
  • その後、SHARPなどに置き換えることができます

B.DDR用のディープリカレントニューラルネットワーク

多層単一変数のネットワーク構造のDRLXiaomu変更、隠れ層の数は4に設定され、各隠れ層のノードの数は128に固定されます。

C.不確実性を減らすためのファジー拡張

深さ構成は、RNNの特性を学習する問題を解決します。ただし、もう1つの重要な問題、つまり財務データに関するデータの不確実性も慎重に検討する必要があります。また、財務シーケンスの背後にあるランダムなギャンブル取引のために、画像や音声などの他のタイプの信号には、予測できない不確実性が多数含まれています。さらに、世界経済環境や一部の企業の噂などの他の要因も、リアルタイムの金融信号の方向性に影響を与える可能性があります。したがって、生データの不確定性を低減することは、金融信号発掘の堅牢性を強化するための重要な方法です。人工知能の分野では、ファジー学習は、パラダイムに対する生データ[33]、[34]の不確実性を減らすことです。ファジーシステムは、特定の現象の正確な説明を使用しませんが、入力データに割り当てられた言語学者の値をぼかす傾向があります。実際のデータをいくつかのファジーセットと比較し、対応するファジーメンバーシップを描画することで、ぼやけた表現を簡単に取得できます。したがって、学習システムはこれらのファジー表現のみを使用してロバスト制御の決定を行うことができます。このホワイトペーパーで説明する財務上の問題については、基本的な株価の動きに従って、ファジーラフ集合を自然に定義します。ここで、ファジーセットは、セットの増分、減分グループとして定義され、トレンドグループは定義されません。次に、説明した問題のコンテキストに応じて、ファジーメンバーシップ関数でパラメーターを事前定義することができます。あるいは、完全にデータ駆動型の方法を学ぶこともできます。財政問題は非常に複雑な問題であり、過去の経験に基づくファジーメンバーシップ機能は難しいマニュアルです。そのため、直接会員機能を学ぶ傾向がありますが、この考え方については第4四半期で詳しく説明します。ファジーニューラルネットワークでは、通常、異なるメンバーシップ関数を持つ部分的にぼやけた入力ベクトルft(緑色のノード)に接続されています[35]。この設定では、先駆的な作業[35]に従って、入力ベクトルの各次元にk個の異なるあいまいさを割り当てることに注意してください。図1のアニメーションでは、 2、スペースの制限により、各入力変数の接続のみが2つのノードをファジーにします(k = 2)。実際の実装では、kは3に固定されており、状況の増加、減少、傾向がないことを示しています。数学、私の6番目のファジーメンバーシップ関数(・):R→[0、1]マップI番目の入力メンバーシップ関数とガウスぼかし度mと分散σ2は、システムが推奨する[37]と[38]の使用です。表現されたブラーを取得した後、それらはディープコンバージョンレイヤーに直接接続され、ディープコンバージョンに見えます。要約すると、主にDRNNファジーブラー、深度変換、およびDRTの3つの部分で表されます。統合システムとしてのFDRNNは、それぞれの再生データの前処理(不確実性の低減)、学習効果の特性(深さ変換)、および取引決定(RL)です。最適化フレームワークは次のとおりです。学習するパラメータは3つのグループ、つまりトランザクションパラメータ=(w、b、u)、ファジー最適化v(・)、gd(・)、上記の深度変換、UTの最終的な報酬です。 RL。機能、δtFRDNN同様のポリシー、現在の市場がDLを条件付ける高度な機能の英国の「フィナンシャルタイムズ」。

IV。 DRNNラーニング