国際交流助成受領者/国際会議参加レポート

令和8年度 国際交流助成受領者による国際会議参加レポート

受領・参加者名
三浦 龍星
(東京科学大学 工学院 システム制御系 システム制御コース)
会議名
IEEE International Conference on Acoustics, Speech, and Signal Processing 2026 (ICASSP 2026)
期日
2026年5月4日~8日
開催地
スペイン・バルセロナ

1. 国際会議の概要

2026年5月4日から5月8日にかけてスペインのバルセロナで開催された、2026 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2026) に参加し、私は筆頭著者としてポスター発表を行いました。

ICASSPは信号処理における世界最大の国際会議であり、音声・音響・信号処理を中心に、 機械学習・画像処理・通信など幅広い分野の研究発表が行われます。 今年も世界各国から数千人の研究者が参加し、口頭、ポスター発表問わず活気のある議論が行われました。

研究発表では、Diffusion ModelやFlow Matchingを用いた生成モデル、 LLMの応用といった近年急速に発展する手法が注目を集めていました。一方、LSTMやGANといった従来から広く用いられてきた手法についても効果的な活用方法を提供する研究が見られ、非常に多くの学びを得ることができました。

2. 研究テーマと討論内容

私は"Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement under Drone Noise"という題目で5月7日にポスター発表を行いました。

ドローンは音声による直感的な操作によって災害救助やインフラ点検への活用が期待されていますが、強力なプロペラ音が音声認識性能を大きく阻害します。この問題に対しDiffusion Modelベースの音声強調モデルの導入を検討しましたが、残留雑音と音声歪みの間にトレードオフが存在するという課題があります。

本研究では、Adaptive Fusion Model (AFM) とBiasing Network (BN) という2つの軽量ネットワークを提案しました。AFMはDiffusion Modelの複数の中間出力を動的に融合してトレードオフを最適化し、BNはドローン雑音の特徴を用いて音声認識モデルの再学習なしに音響的ミスマッチを補正します。実験では、SNR 0 dBおよび -5 dBにおいてベースラインと比較してそれぞれ約20・25ポイントの文字誤り率の改善を達成し、両手法の組み合わせによる相乗効果も確認しました。

ポスター発表では世界各国の研究者と活発な議論を交わし、他の雑音環境への汎化性能や提案手法が性能向上に寄与する動作原理などについて有益な示唆を得ました。

3. 国際会議に出席した成果
(コミュニケーション・国際交流・感想)

今回のICASSP 2026への参加は、修士1年の段階で国際会議における発表を経験できた貴重な機会となりました。英語でのポスター発表では、他の雑音環境への汎化性能や提案手法の動作原理など、今後の研究に直結する議論を世界各国の研究者と直接交わすことができました。自分の研究が国際的な場で通用することへの自信を得た一方、発表・聴講を通じて専門的な内容を英語で正確に伝えること、また他の研究者のポスターに対してより踏み込んだ質問を行うことの難しさを実感し、英語力の向上が今後の重要な課題であると認識しました。また、同じく学会に参加していた日本人学生と研究に対する考え方を共有する機会も得られました。

聴講を通じて生成モデルや低SNR環境での音声強調に関する最新の研究動向に触れたことで、自身の研究の位置づけと今後の方向性をより明確に捉えることができました。また、今回が初めての海外渡航であり、学会会場のみならず街中においても常に英語で意思疎通を図る経験は、国際的な環境で研究に携わることへの強いモチベーションとなりました。

最後に、本国際会議への参加にあたりご支援いただいた貴財団に深く感謝申し上げます。

令和8年度 国際交流助成受領者一覧に戻る

ページの先頭へ