2025年10月28日
ポイント
●双曲幾何と情報理論の観点から「データセット蒸留」を再設計。
●双曲幾何を導入し、意味の階層構造を保持しつつ分布整合化を実現。
●情報理論で拡散生成を制御し、少量生成でも多様性不足を抑制。
概要
北海道大学大学院情報科学研究院の長谷山美紀教授、小川貴弘教授、前田圭介准教授、同大学数理・データサイエンス教育研究センターの李 広特任助教、同大学大学院情報科学院研究生の李 文遠氏、トロント大学電気・コンピュータ工学科のコンスタンティノス プラタニオティス教授、博士課程のリンフェン イエ氏、スタンフォード大学電気工学科のシャヤンモハジェル ハミディ博士研究員らの研究グループは、データセット蒸留を双曲幾何×情報理論で再設計し、性能を維持したまま学習用データを大幅に集約する新手法を開発しました。
第一に、双曲幾何を導入し、階層的な意味関係を表現しやすい双曲空間上で元データと合成データの分布を整合させることで、クラスのプロトタイプを保った圧縮を実現しました(データセット蒸留へ双曲空間を本格的に導入した初めての試み)。第二に、情報理論に基づき拡散モデルの生成過程を情報量で制御し、生成枚数が少ない条件で生じやすい多様性の不足を抑制しました。これらを組み合わせることで、「意味構造を保持する圧縮」と「偏りにくい合成データ生成」を同時に達成し、学習時間・メモリ・ストレージへの負荷を軽減する実用的な基盤を構築しました。
本研究成果のうち、双曲幾何に基づく研究は2025年12月2日(火)〜7日(日)に米国・サンディエゴで開催される人工知能・機械学習分野の主要国際会議 The Thirty-Ninth Annual Conference on Neural Information Processing Systems(NeurIPS 2025)のMain Trackに、情報理論に基づく研究は同会議Workshopに採択されています。
詳細はこちら




















