[告知]データ処理エンジンの段階的切り替えを行います（Project Polaris）

末尾スペースのある数値（例: "1234 "）が数値型ではなく文字列型として認識されるようになります
- 対処: データソースでの型変換で数値型に変換可能
全角数字（例: １２３４５）の半角への自動変換がなくなり、全角のまま保持されます
指数表記風の文字列（例: 10e123456789）がinf に誤変換されなくなり、文字列のまま保持されます
小数の有効数字が17桁超の数値に差異がでます。（例：入力数値: 1.01234567890123456789）
- 以前: 1.0123456789012344
- 今後: 1.0123456789012346

文字「TRUE/FALSE」 → 「1/0」（数値型）ではなく "True"/"False"（文字列型）として読み込まれます
エラーセル（#DIV/0!、#VALUE! 等）→ 文字ではなく、欠損値に自動変換されます
エラーセルを含む列 → 列全体が文字列型として読み込まれ、列内に数値がある場合、小数点以下9桁までに自動でカットされます。
データテーブル左にある空白列 → 自動的に削除されるようになります
時間型と他の型の混在列 → 時間セルが "1899-12-31 17:17:47" のように日付時間形式に強制的に変わります（「1899-12-31」部は固定）
inf 文字列 → 欠損値自動置換ではなく、文字列型のまま保持されます

配列・オブジェクト内の大文字 → 小文字に自動変換されなくなり、元のまま保持されます
表示形式 → シングルクォート＋スペース（['Python', 'Java']）から、ダブルクォート＋スペースなし（["Python","Java"]）に変わります
null表記 → None から null に変わります
真偽値（JSON）→ [True, False] から [true,false] に変わります

列名が * （アスタリスク）のみの場合、_ （アンダースコア）に自動変換されるようになります。

Project Polaris

本変更は、データ処理エンジンの刷新に向けての第一歩です。

これまでは、PythonとSpark（Hyper nehan）にてデータ処理機能を提供しておりましたが、パフォーマンスや安定性などを鑑みて、新しいデータ処理エンジン「Polars」への変更を行ってまいります。

Polarsは、Rust言語で開発された次世代のデータ処理エンジンです。

Apache Arrow形式をベースとしており、以下のようなメリットがあります。

一方で、Polarsは従来のPandas（Python）と比べてデータ型の扱いが厳密です。

Pandasでは「なんとなく認識してくれていた」曖昧な形式（8桁数字の日付、全角数字の自動変換など）が、Polarsでは明示的な形式でないと認識されません。

これは一見すると不便に感じられるかもしれませんが、

につながるものであり、データ処理の信頼性を高めるための変更でもあります。

以下の段階を踏んで、徐々にエンジンを置き換えていく予定です。

なお、完全置き換え時には、

を行う予定です。

更なるnehanに進化にご期待ください。

リリースノートに戻る

Page updated

Report abuse