これまで自動で付与されていた列の型が変わる可能性があります。(例: これまで日付型で読み込めていたが、文字列型に変わってしまった)
データソース上で列型が変わることで、分析プロジェクト側の後続処理にも影響が出る点に注意してください。
2026.05.11リリースにて反映予定です。
下記のファイル系データソースが対象です。(旧データソースを除く)
ファイルアップロード
Amazon S3
Google Cloud Storage
Azure Blob Storage
Google Drive
OneDrive
SharePoint
Microsoft Fabric OneLake
SFTP
リリース後新規作成、およびリリース前作成済み、の全てのデータソースが影響を受けます。
影響を受ける操作は、データソースの「読み込み」「読み込んで保存」操作です。
データソースの更新操作と同義であるスケジュールでの更新も同様に影響を受けます。
例外としてHyper nehan適用データソースは、上記1~3に該当したとしても、本仕様変更の影響を受けません。
これまで日付として自動認識されていた一部の形式が、文字列や数値として読み込まれるようになります。該当データがある場合、事前に元データの修正またはワークフローでの型変換対応が必要です。
日付型に変換できなくなる形式があります
8桁数字(区切りなし)
例: 20240115、20231225
対処: 2024-01-15、2023-12-25 のように区切り文字を入れてください
年月のみ
例: 2024-01、2024/01
対処: 2024-01-01 のように日を補完してください
年のみ
例: 2024、2023
対処: 2024-01-01 のように月日を補完してください
(参考)引き続き日付型に変換可能な形式
2024-01-15 ← ISO形式(推奨)
2024/01/15 ← スラッシュ区切り
15-01-2024 ← 日-月-年
2024-01-15 10:30:00 ← 日時付き
時刻に変換できなくなる形式があります
小数点付き時間の場合、小数点以下の桁数が 3桁・6桁・9桁 のいずれかでなければ、時刻型に変換できません。
※日付時間型(2024-01-15 12:30:45.xxx)でも同じルールです。
変換できない例:
12:30:45.1(1桁)
12:30:45.12(2桁)
12:30:45.1234(4桁)
12:30:45.1234567(7桁)
(参考)変換できる例:
12:30:45.123(3桁=ミリ秒)
12:30:45.123456(6桁=マイクロ秒)
12:30:45.123456789(9桁=ナノ秒)
Excel固有のカスタム日付書式(和暦等)が初回読み込み時、日付型として読み込めなくなります
変更前: 和暦等のカスタム書式から日付として自動認識
変更後: 整数(日付シリアル値)として読み込まれます
対処: データソース読み込み時に「日付」型変換を行うことが可能
すべて空の列・ヘッダーのみのCSVの自動列型付けのルールが変わります
変更前: 自動的に全列型が日付型になる
変更後: 自動的に全列型が文字列型になる
末尾スペースのある数値(例: "1234 ")が数値型ではなく文字列型として認識されるようになります
対処: データソースでの型変換で数値型に変換可能
全角数字(例: 12345)の半角への自動変換がなくなり、全角のまま保持されます
指数表記風の文字列(例: 10e123456789)がinf に誤変換されなくなり、文字列のまま保持されます
小数の有効数字が17桁超の数値に差異がでます。(例: 入力数値: 1.01234567890123456789)
以前: 1.0123456789012344
今後: 1.0123456789012346
文字「True/False」 → 小文字「true/false」に自動変換されなくなり、そのまま保持されます
文字「true/false」 → 数値(1.0/0.0)への変換ができなくなります
空白行 → 自動削除されなくなり、保持されます
文字「TRUE/FALSE」 → 「1/0」(数値型)ではなく "True"/"False"(文字列型)として読み込まれます
エラーセル(#DIV/0!、#VALUE! 等)→ 文字ではなく、欠損値に自動変換されます
エラーセルを含む列 → 列全体が文字列型として読み込まれ、列内に数値がある場合、小数点以下9桁までに自動でカットされます。
データテーブル左にある空白列 → 自動的に削除されるようになります
時間型と他の型の混在列 → 時間セルが "1899-12-31 17:17:47" のように日付時間形式に強制的に変わります(「1899-12-31」部は固定)
inf 文字列 → 欠損値自動置換ではなく、文字列型のまま保持されます
配列・オブジェクト内の大文字 → 小文字に自動変換されなくなり、元のまま保持されます
表示形式 → シングルクォート+スペース(['Python', 'Java'])から、ダブルクォート+スペースなし(["Python","Java"])に変わります
null表記 → None から null に変わります
真偽値(JSON)→ [True, False] から [true,false] に変わります
列名が * (アスタリスク)のみの場合、_ (アンダースコア)に自動変換されるようになります。
本変更は、データ処理エンジンの刷新に向けての第一歩です。
これまでは、PythonとSpark(Hyper nehan)にてデータ処理機能を提供しておりましたが、パフォーマンスや安定性などを鑑みて、新しいデータ処理エンジン「Polars」への変更を行ってまいります。
Polarsは、Rust言語で開発された次世代のデータ処理エンジンです。
Apache Arrow形式をベースとしており、以下のようなメリットがあります。
処理速度の大幅な向上: 同じデータ・同じ処理でも、従来比で数倍〜数十倍の速度向上が見込めます
メモリ効率の改善: より少ないメモリで大規模データを扱えるようになります
並列処理の最適化: マルチコアCPUを自動的に活用し、処理を高速化します
処理の安定性向上: 厳密な型システムにより、データの不整合に起因する予期しないエラーが減少します
一方で、Polarsは従来のPandas(Python)と比べてデータ型の扱いが厳密です。
Pandasでは「なんとなく認識してくれていた」曖昧な形式(8桁数字の日付、全角数字の自動変換など)が、Polarsでは明示的な形式でないと認識されません。
これは一見すると不便に感じられるかもしれませんが、
データが意図しない型に変換される事故(例: IDが日付に誤変換される)の防止
「環境やデータによって結果が変わる」という再現性の問題の解消
につながるものであり、データ処理の信頼性を高めるための変更でもあります。
以下の段階を踏んで、徐々にエンジンを置き換えていく予定です。
ファイル系データソースの読み込み(今回の告知)
データベース系データソースの読み込み
分析プロジェクト内のデータ処理機能
データエクスポート
なお、完全置き換え時には、
Hyper nehanの機能廃止(Polarsエンジンに完全統合)
これに伴う提供プラン構成の変更
を行う予定です。
更なるnehanに進化にご期待ください。