(FEND)A Future Enhanced Distribution-Aware Contrastive Learning Framework for Long-tail Trajectory Prediction

[Title]FEND: A Future Enhanced Distribution-Aware Contrastive Learning Framework for Long-tail Trajectory Prediction(CVPR2023)

摘要

困难： trajectory prediction suffers from data imbalance in the prevalent datasets, and the tailed data is often more complicated and safety-critical.
本文目标： we focus on dealing with the long-tail phenomenon in trajectory prediction.
前人不足： Previous methods dealing with long-tail data did not take into account the variety of motion patterns in the tailed data.
本文特色：
1. In this paper, we put forward a future enhanced contrastive learning framework to recognize tail trajectory patterns and form a feature space with separate pattern clusters.
2. Furthermore, a distribution aware hyper predictor（分布感知超预测器） is brought up to better utilize the shaped feature space.
3. Our method is a model-agnostic framework and can be plugged into many well-known baselines.

长尾问题

来源：样本（类别）样本不平衡（class-imbalance）指的是分类任务中不同类别的训练样例数目差别很大的情况，一般地，样本类别比例（Imbalance Ratio）（多数类vs少数类）明显大于1:1（如4：1）就可以归为样本不均衡的问题。现实中，样本不平衡是一种常见的现象，如：金融欺诈交易检测，欺诈交易的订单样本通常是占总交易数量的极少部分，而且对于有些任务而言少数样本更为重要。

举例：在真实的交通场景中，大多数轨迹遵循一定简单的运动规则，而偏离和避免碰撞的情况很少。因此，频繁出现的情况往往简单、容易预测，而尾部情况往往复杂，运动模式多，预测误差大，使得univ数据集更加对安全看重，如图1所示。尽管长尾预测问题具有重要意义，但在文献中很少被讨论。

定义：只有少量的类别含有较多样本（head），大部分类别的样本数都很少（tail）

简介

背景：Despite the high accuracy those prediction methods have achieved, most of them treat the samples in the datasets equally in both training and evaluation phases. But there is a long-tailed phenomenon in prevalent datasets

本文提出：A new framework is developed called FEND: Future ENhanced Distribution-aware contrastive trajectory prediction（未来增强分布感知对比轨迹预测）, which is a pattern-based contrastive feature learning framework enhanced by future trajectory information.

贡献：（对应上述方法）

We propose a future enhanced contrastive feature learning framework for long-tailed trajectory prediction, which can better distinguish tail patterns from head patterns, and the different patterns are represented by different cluster prototypes to enhance the modeling of the tailed data.
We propose a distribution-aware hyper predictor, aiming at providing separated decoder parameters for trajectory inputs with different patterns.

方法

概览

总体框架如上图。

首先用轨迹特征提取器对历史轨迹和未来轨迹进行处理，用Kmeanes对提取的特征进行聚类，形成不同的模式聚类。(上半部分左边)
聚类后，利用历史和未来信息自发地分离尾部轨迹模式和头部轨迹模式。(上半部分右边)
根据Kmeans生成的伪聚类标签(下半部分Past trajectory encoding)对基线预测网络的历史编码特征进行PCL处理。
通过执行PCL算法，对轨迹编码器的特征空间分别进行了单独的聚类。
然后构造了超解码器，该解码器为不同的轨迹输入生成单独的解码器权重，因此头簇和尾簇中的轨迹被不同地预测。

Future Enhanced Contrastive Learning

此部分在文中分为 Future Enhanced Trajectory Clustering 和 Prototypical Contrastive Learning，前者用来生成对比样本，而后者进行PCL(原型对比学习)流程。

Future Enhanced Trajectory Clustering使用多层次的聚类来执行Kmeans来实现层次结构，就像原始的PCL那样。

Prototypical Contrastive Learning

首先是损失函数 ：

跟PCL所属相同，第一项是实例级的对比项，第二项是实例-原型对比项

而Lins和Lproto又分别如下

Instance-wise term

实例级项可以帮助实例更快地聚集在一起，并且算法收敛得更快。

正样本i+为与实例i来自同一簇的实例，批中的其他实例（即属于其他簇），视为负样本。j表示当前批处理数据中的任意样本。r表示批处理的大小。

Instance-prototype term

原型项有助于保持局部平滑性和形成具有不同模式的集群。

M为Kmeans聚类层次结构的个数，cms表示i所属的聚类的原型，cmj表示任意聚类j的原型。

该原型是通过取一个集群中所有特征的平均值来计算的。Nm表示层次结构m的集群数。ϕmj表示簇j的密度

Distribution-Aware Hyper Predictor

目标：头部簇和尾部簇应该被分配不同的解码器

困难：尾部样本的数据量不足 （根据聚类结果，可以对数据量比较小的簇进行扩容（数据增强）再训练解码器，就解决了尾部数据不足的问题，这里就不用超网了） ，单独训练解码器会导致严重的过拟合。

方法：使用超网络HyperNetworks。希望在整个数据集上转移公共知识，同时保持单独解码器的建模灵活性。

超网络（Hypernetworks，ICLR2017）表示用于产生较大规模网络参数的小规模网络，在这一过程中，主网络的作用与其他任意神经网络一样，将输入样本映射到对应的目标值，而超网络的作用则是接收一系列包含主网络参数结构信息的值作为输入然后产生主网络某一层的参数。

原文：D. Ha, A. Dai, and Q. V. Le, ‘HyperNetworks’. arXiv, Dec. 01, 2016. Accessed: Mar. 13, 2023. [Online]. Available: [http://arxiv.org/abs/1609.09106]

普通LSTM trajectory decoder

i、g、f、o分别为输入门、更新门、遗忘门和输出门。

f(t)是遗忘门门控，m(t-1)是历史状态信息，两者相乘代表t时刻允许多少历史信息进入来决定m(t)当前状态

如果遗忘门全关取值0，则历史对当前状态无影响，如果遗忘门全开取值1，则历史信息原封不动的传到t时刻，没有任何信息损失，当然更大可能是取值0到1之间，代表历史信息的部分流入；