Đào tạo các mô hình mạng thần kinh cho dịch vụ tài chính bằng bộ xử lý Intel® Xeon

Chuỗi thời gian là một loại dữ liệu rất quan trọng trong ngành dịch vụ tài chính. Lãi suất, giá cổ phiếu, tỷ giá hối đoái và giá quyền chọn là những ví dụ điển hình cho loại dữ liệu này. Dự báo chuỗi thời gian đóng một vai trò quan trọng khi các tổ chức tài chính thiết kế chiến lược đầu tư và đưa ra quyết định. Theo truyền thống, các mô hình thống kê như SMA (trung bình động đơn giản), SES (làm mịn hàm mũ đơn giản) và ARIMA (trung bình động tích hợp tự hồi quy) được sử dụng rộng rãi để thực hiện các nhiệm vụ dự báo chuỗi thời gian.

Mạng lưới thần kinh là những lựa chọn thay thế đầy hứa hẹn, vì chúng mạnh mẽ hơn đối với các vấn đề hồi quy như vậy do tính linh hoạt trong kiến ​​trúc mô hình (ví dụ: có nhiều siêu tham số mà chúng ta có thể điều chỉnh, chẳng hạn như số lớp, số lượng nơ-ron, tốc độ học tập, v.v.). Gần đây, các ứng dụng của mô hình mạng thần kinh trong lĩnh vực dự báo chuỗi thời gian ngày càng thu hút được nhiều sự chú ý từ cộng đồng khoa học dữ liệu và thống kê.

Trong blog này, trước tiên chúng ta sẽ thảo luận về một số thuộc tính cơ bản mà mô hình học máy phải có để thực hiện các nhiệm vụ dịch vụ tài chính. Sau đó, chúng tôi sẽ thiết kế mô hình của mình dựa trên các yêu cầu này và trình bày cách huấn luyện mô hình song song trên cụm HPC với bộ xử lý Intel® Xeon.

Yêu cầu từ tổ chức tài chính

Độ chính xác cao và độ trễ thấp là hai đặc tính quan trọng mà các tổ chức dịch vụ tài chính mong đợi từ mô hình dự báo chuỗi thời gian chất lượng.

Độ chính xác cao   Mức độ chính xác cao trong mô hình dự báo giúp các công ty giảm nguy cơ mất tiền khi đầu tư. Mạng lưới thần kinh được cho là có khả năng nắm bắt tốt các động lực theo chuỗi thời gian và do đó mang lại những dự đoán chính xác hơn. Có nhiều siêu tham số trong mô hình để các nhà khoa học dữ liệu và nhà nghiên cứu định lượng có thể điều chỉnh chúng để có được mô hình tối ưu. Hơn nữa, cộng đồng khoa học dữ liệu tin rằng học tập tổng hợp có xu hướng cải thiện đáng kể độ chính xác của dự đoán. Tính linh hoạt của kiến ​​trúc mô hình cung cấp cho chúng ta nhiều thành viên mô hình đa dạng cho việc học tập theo nhóm.

Hoạt động có độ trễ thấp   trong dịch vụ tài chính rất nhạy cảm với thời gian. Ví dụ: giao dịch tần suất cao thường yêu cầu các mô hình hoàn thành việc đào tạo và dự đoán trong khoảng thời gian rất ngắn. Đối với các mô hình mạng nơ-ron sâu, độ trễ thấp có thể được đảm bảo bằng cách đào tạo phân tán với Horovod hoặc TensorFlow phân tán. Bộ xử lý đa lõi Intel® Xeon, kết hợp với TensorFlow được tối ưu hóa MKL của Intel, chứng tỏ là một lựa chọn cơ sở hạ tầng tốt cho hoạt động đào tạo phân tán như vậy.

Với những yêu cầu này, chúng tôi đề xuất một mô hình học tập tổng hợp như trong Hình 1, là sự kết hợp của các mô hình MLP (Perceptron đa lớp), CNN (Mạng thần kinh chuyển đổi) và LSTM (Bộ nhớ ngắn hạn dài). Do các cấu trúc liên kết kiến ​​trúc cho MLP, CNN và LSTM khá khác nhau nên mô hình tổng hợp có sự đa dạng về thành phần, giúp giảm nguy cơ trang bị quá mức và tạo ra các dự đoán đáng tin cậy hơn. Các mô hình thành viên được đào tạo cùng lúc trên nhiều nút bằng bộ xử lý Intel® Xeon. Nếu cần tích hợp nhiều mô hình hơn, chúng tôi chỉ cần thêm nhiều nút hơn vào hệ thống để thời gian đào tạo tổng thể được rút ngắn. Với các mô hình mạng thần kinh và sức mạnh HPC của bộ xử lý Intel® Xeon, hệ thống này đáp ứng yêu cầu của các tổ chức dịch vụ tài chính.

Đào tạo mô hình tập hợp có độ chính xác cao trên cụm HPC với bộ xử lý Intel® Xeon

Đào tạo nhanh với bộ xử lý có khả năng mở rộng Intel® Xeon

Các thử nghiệm của chúng tôi đã sử dụng siêu máy tính Zenith của Dell EMC bao gồm 422 nút Dell EMC PowerEdge C6420, mỗi nút có 2 bộ xử lý Intel® Xeon Scalable Gold 6148. Hình 2 cho thấy một ví dụ về thời gian đào tạo để đào tạo các mô hình MLP, CNN và LSTM với số lượng quy trình khác nhau. Tập dữ liệu được sử dụng là dữ liệu Bảo mật chỉ số lạm phát kho bạc 10 năm . Trong ví dụ này, chạy đào tạo phân tán với 40 quy trình là hiệu quả nhất, chủ yếu do kích thước dữ liệu trong chuỗi thời gian này nhỏ và các mô hình mạng thần kinh mà chúng tôi sử dụng không có nhiều lớp. Với cài đặt này, quá trình đào tạo mô hình có thể hoàn thành trong vòng 10 giây, nhanh hơn nhiều so với việc đào tạo mô hình bằng một bộ xử lý chỉ có một vài lõi, thường mất hơn một phút. Về độ chính xác, mô hình tổng hợp có thể dự đoán mức lãi suất này với MAE (sai số tuyệt đối trung bình) nhỏ hơn 0,0005. Giá trị điển hình của lãi suất này là khoảng 0,01, do đó sai số tương đối nhỏ hơn 5%.

So sánh thời gian đào tạo: Mỗi mô hình được đào tạo trên một Dell EMC PowerEdge C6420 duy nhất với 2 bộ xử lý Intel Xeon® Scalable 6148

Phần kết luận

Với cả độ chính xác cao và độ trễ thấp đều rất quan trọng đối với việc dự báo chuỗi thời gian trong các dịch vụ tài chính, các mô hình mạng thần kinh được đào tạo song song bằng cách sử dụng bộ xử lý Intel® Xeon có thể mở rộng nổi bật là những lựa chọn rất hứa hẹn cho các tổ chức tài chính. Và khi các tổ chức tài chính cần đào tạo các mô hình phức tạp hơn để dự báo nhiều chuỗi thời gian với độ chính xác cao cùng lúc, nhu cầu xử lý song song sẽ ngày càng tăng lên.