excel-toolkit/scripts/filter_data.py

#!/usr/bin/env python3
"""Filter, sort, and deduplicate Excel/CSV data."""

from __future__ import annotations

import argparse
import sys
from pathlib import Path
from typing import TYPE_CHECKING, Any

if TYPE_CHECKING:
    import pandas as pd


class DataProcessingError(Exception):
    """Raised when input arguments or data operations are invalid."""


def parse_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser(
        description="Filter, sort, and deduplicate Excel/CSV data."
    )
    parser.add_argument("--input", required=True, help="Input Excel/CSV file path.")
    parser.add_argument("--output", required=True, help="Output Excel/CSV file path.")
    parser.add_argument(
        "--sheet",
        help="Sheet name for Excel files. Defaults to the first sheet.",
    )
    parser.add_argument(
        "--filter",
        dest="filter_expr",
        help='Filter expression, for example: 年龄 > 30 or 部门 == "技术部".',
    )
    parser.add_argument(
        "--sort",
        action="append",
        default=[],
        help="Sort column name. Can be specified multiple times.",
    )
    order_group = parser.add_mutually_exclusive_group()
    order_group.add_argument(
        "--sort-asc",
        action="store_true",
        default=True,
        help="Sort ascending (default).",
    )
    order_group.add_argument(
        "--sort-desc",
        action="store_true",
        help="Sort descending.",
    )
    parser.add_argument("--dedup", help="Deduplicate by the specified column name.")
    parser.add_argument(
        "--keep",
        choices=("first", "last"),
        default="first",
        help="Which row to keep when deduplicating. Default: first.",
    )
    return parser.parse_args()


def file_kind(path: Path) -> str:
    suffix = path.suffix.lower()
    if suffix == ".csv":
        return "csv"
    if suffix in {".xlsx", ".xls", ".xlsm", ".xlsb", ".ods"}:
        return "excel"
    raise DataProcessingError(
        f"Unsupported file type for '{path}'. Please use CSV or Excel files."
    )


def get_pandas() -> Any:
    try:
        import pandas as pd
    except ImportError as exc:
        raise DataProcessingError(
            "This script requires pandas. Please install it first, for example: "
            "pip install pandas openpyxl"
        ) from exc
    return pd


def load_data(path: Path, sheet_name: str | None) -> "pd.DataFrame":
    if not path.exists():
        raise DataProcessingError(f"Input file does not exist: {path}")

    kind = file_kind(path)
    pd = get_pandas()
    try:
        if kind == "csv":
            return pd.read_csv(path)
        return pd.read_excel(path, sheet_name=sheet_name if sheet_name else 0)
    except ValueError as exc:
        raise DataProcessingError(f"Unable to read sheet '{sheet_name}': {exc}") from exc
    except ImportError as exc:
        raise DataProcessingError(
            "Reading Excel files requires the appropriate engine. "
            "Please install openpyxl or the engine required by your file format."
        ) from exc
    except Exception as exc:  # pragma: no cover - defensive
        raise DataProcessingError(f"Failed to read input file '{path}': {exc}") from exc


def save_data(dataframe: "pd.DataFrame", path: Path) -> None:
    kind = file_kind(path)
    path.parent.mkdir(parents=True, exist_ok=True)
    try:
        if kind == "csv":
            dataframe.to_csv(path, index=False, encoding="utf-8-sig")
        else:
            dataframe.to_excel(path, index=False)
    except ImportError as exc:
        raise DataProcessingError(
            "Writing Excel files requires the appropriate engine. "
            "Please install openpyxl or the engine required by your file format."
        ) from exc
    except Exception as exc:  # pragma: no cover - defensive
        raise DataProcessingError(f"Failed to write output file '{path}': {exc}") from exc


def validate_columns(dataframe: "pd.DataFrame", columns: list[str], action: str) -> None:
    missing = [column for column in columns if column not in dataframe.columns]
    if missing:
        available = ", ".join(map(str, dataframe.columns))
        missing_text = ", ".join(missing)
        raise DataProcessingError(
            f"Cannot {action}. Missing column(s): {missing_text}. "
            f"Available columns: {available}"
        )


def normalize_filter_expression(expression: str, columns: list[str]) -> str:
    """Wrap column names in backticks unless already inside quotes/backticks."""
    if not expression or not columns:
        return expression

    ordered_columns = sorted((str(column) for column in columns), key=len, reverse=True)
    parts: list[str] = []
    i = 0
    quote_char: str | None = None
    in_backticks = False

    while i < len(expression):
        char = expression[i]
        if quote_char:
            parts.append(char)
            if char == "\\" and i + 1 < len(expression):
                i += 1
                parts.append(expression[i])
            elif char == quote_char:
                quote_char = None
            i += 1
            continue

        if in_backticks:
            parts.append(char)
            if char == "`":
                in_backticks = False
            i += 1
            continue

        if char in {"'", '"'}:
            quote_char = char
            parts.append(char)
            i += 1
            continue

        if char == "`":
            in_backticks = True
            parts.append(char)
            i += 1
            continue

        matched = None
        for column in ordered_columns:
            if expression.startswith(column, i):
                prev_char = expression[i - 1] if i > 0 else ""
                next_index = i + len(column)
                next_char = expression[next_index] if next_index < len(expression) else ""
                if (prev_char and (prev_char.isalnum() or prev_char == "_")) or (
                    next_char and (next_char.isalnum() or next_char == "_")
                ):
                    continue
                matched = column
                break

        if matched is not None:
            parts.append(f"`{matched}`")
            i += len(matched)
            continue

        parts.append(char)
        i += 1

    return "".join(parts)


def apply_filter(dataframe: "pd.DataFrame", expression: str) -> "pd.DataFrame":
    normalized_expression = normalize_filter_expression(expression, list(dataframe.columns))
    try:
        return dataframe.query(normalized_expression, engine="python")
    except Exception as exc:
        raise DataProcessingError(
            f"Invalid filter expression '{expression}': {exc}"
        ) from exc


def process_data(args: argparse.Namespace) -> "pd.DataFrame":
    dataframe = load_data(Path(args.input), args.sheet)
    original_rows = len(dataframe)

    if args.filter_expr:
        dataframe = apply_filter(dataframe, args.filter_expr)

    if args.sort:
        validate_columns(dataframe, args.sort, "sort")
        dataframe = dataframe.sort_values(by=args.sort, ascending=not args.sort_desc)

    if args.dedup:
        validate_columns(dataframe, [args.dedup], "deduplicate")
        dataframe = dataframe.drop_duplicates(subset=[args.dedup], keep=args.keep)

    final_rows = len(dataframe)
    print(f"Rows before processing: {original_rows}")
    print(f"Rows after processing: {final_rows}")
    return dataframe


def main() -> int:
    args = parse_args()
    try:
        result = process_data(args)
        save_data(result, Path(args.output))
        print(f"Output written to: {args.output}")
        return 0
    except DataProcessingError as exc:
        print(f"Error: {exc}", file=sys.stderr)
        return 1
    except KeyboardInterrupt:
        print("Error: Operation cancelled by user.", file=sys.stderr)
        return 130


if __name__ == "__main__":
    sys.exit(main())
Initial commit: excel-toolkit skill Excel 文件智能处理工具： - 基础操作：读取/合并/筛选/替换/批量处理 - 自扩展能力：根据自然语言自动生成脚本 - 预置模板：货币转换/数据透视/数据清洗/列计算 - 支持 .xlsx 和 .csv 格式 2026-03-11 04:20:00 +00:00			`#!/usr/bin/env python3`
			`"""Filter, sort, and deduplicate Excel/CSV data."""`

			`from __future__ import annotations`

			`import argparse`
			`import sys`
			`from pathlib import Path`
			`from typing import TYPE_CHECKING, Any`

			`if TYPE_CHECKING:`
			`import pandas as pd`


			`class DataProcessingError(Exception):`
			`"""Raised when input arguments or data operations are invalid."""`


			`def parse_args() -> argparse.Namespace:`
			`parser = argparse.ArgumentParser(`
			`description="Filter, sort, and deduplicate Excel/CSV data."`
			`)`
			`parser.add_argument("--input", required=True, help="Input Excel/CSV file path.")`
			`parser.add_argument("--output", required=True, help="Output Excel/CSV file path.")`
			`parser.add_argument(`
			`"--sheet",`
			`help="Sheet name for Excel files. Defaults to the first sheet.",`
			`)`
			`parser.add_argument(`
			`"--filter",`
			`dest="filter_expr",`
			`help='Filter expression, for example: 年龄 > 30 or 部门 == "技术部".',`
			`)`
			`parser.add_argument(`
			`"--sort",`
			`action="append",`
			`default=[],`
			`help="Sort column name. Can be specified multiple times.",`
			`)`
			`order_group = parser.add_mutually_exclusive_group()`
			`order_group.add_argument(`
			`"--sort-asc",`
			`action="store_true",`
			`default=True,`
			`help="Sort ascending (default).",`
			`)`
			`order_group.add_argument(`
			`"--sort-desc",`
			`action="store_true",`
			`help="Sort descending.",`
			`)`
			`parser.add_argument("--dedup", help="Deduplicate by the specified column name.")`
			`parser.add_argument(`
			`"--keep",`
			`choices=("first", "last"),`
			`default="first",`
			`help="Which row to keep when deduplicating. Default: first.",`
			`)`
			`return parser.parse_args()`


			`def file_kind(path: Path) -> str:`
			`suffix = path.suffix.lower()`
			`if suffix == ".csv":`
			`return "csv"`
			`if suffix in {".xlsx", ".xls", ".xlsm", ".xlsb", ".ods"}:`
			`return "excel"`
			`raise DataProcessingError(`
			`f"Unsupported file type for '{path}'. Please use CSV or Excel files."`
			`)`


			`def get_pandas() -> Any:`
			`try:`
			`import pandas as pd`
			`except ImportError as exc:`
			`raise DataProcessingError(`
			`"This script requires pandas. Please install it first, for example: "`
			`"pip install pandas openpyxl"`
			`) from exc`
			`return pd`


			`def load_data(path: Path, sheet_name: str \| None) -> "pd.DataFrame":`
			`if not path.exists():`
			`raise DataProcessingError(f"Input file does not exist: {path}")`

			`kind = file_kind(path)`
			`pd = get_pandas()`
			`try:`
			`if kind == "csv":`
			`return pd.read_csv(path)`
			`return pd.read_excel(path, sheet_name=sheet_name if sheet_name else 0)`
			`except ValueError as exc:`
			`raise DataProcessingError(f"Unable to read sheet '{sheet_name}': {exc}") from exc`
			`except ImportError as exc:`
			`raise DataProcessingError(`
			`"Reading Excel files requires the appropriate engine. "`
			`"Please install openpyxl or the engine required by your file format."`
			`) from exc`
			`except Exception as exc: # pragma: no cover - defensive`
			`raise DataProcessingError(f"Failed to read input file '{path}': {exc}") from exc`


			`def save_data(dataframe: "pd.DataFrame", path: Path) -> None:`
			`kind = file_kind(path)`
			`path.parent.mkdir(parents=True, exist_ok=True)`
			`try:`
			`if kind == "csv":`
			`dataframe.to_csv(path, index=False, encoding="utf-8-sig")`
			`else:`
			`dataframe.to_excel(path, index=False)`
			`except ImportError as exc:`
			`raise DataProcessingError(`
			`"Writing Excel files requires the appropriate engine. "`
			`"Please install openpyxl or the engine required by your file format."`
			`) from exc`
			`except Exception as exc: # pragma: no cover - defensive`
			`raise DataProcessingError(f"Failed to write output file '{path}': {exc}") from exc`


			`def validate_columns(dataframe: "pd.DataFrame", columns: list[str], action: str) -> None:`
			`missing = [column for column in columns if column not in dataframe.columns]`
			`if missing:`
			`available = ", ".join(map(str, dataframe.columns))`
			`missing_text = ", ".join(missing)`
			`raise DataProcessingError(`
			`f"Cannot {action}. Missing column(s): {missing_text}. "`
			`f"Available columns: {available}"`
			`)`


			`def normalize_filter_expression(expression: str, columns: list[str]) -> str:`
			`"""Wrap column names in backticks unless already inside quotes/backticks."""`
			`if not expression or not columns:`
			`return expression`

			`ordered_columns = sorted((str(column) for column in columns), key=len, reverse=True)`
			`parts: list[str] = []`
			`i = 0`
			`quote_char: str \| None = None`
			`in_backticks = False`

			`while i < len(expression):`
			`char = expression[i]`
			`if quote_char:`
			`parts.append(char)`
			`if char == "\\" and i + 1 < len(expression):`
			`i += 1`
			`parts.append(expression[i])`
			`elif char == quote_char:`
			`quote_char = None`
			`i += 1`
			`continue`

			`if in_backticks:`
			`parts.append(char)`
			if char == "`":
			`in_backticks = False`
			`i += 1`
			`continue`

			`if char in {"'", '"'}:`
			`quote_char = char`
			`parts.append(char)`
			`i += 1`
			`continue`

			if char == "`":
			`in_backticks = True`
			`parts.append(char)`
			`i += 1`
			`continue`

			`matched = None`
			`for column in ordered_columns:`
			`if expression.startswith(column, i):`
			`prev_char = expression[i - 1] if i > 0 else ""`
			`next_index = i + len(column)`
			`next_char = expression[next_index] if next_index < len(expression) else ""`
			`if (prev_char and (prev_char.isalnum() or prev_char == "_")) or (`
			`next_char and (next_char.isalnum() or next_char == "_")`
			`):`
			`continue`
			`matched = column`
			`break`

			`if matched is not None:`
			parts.append(f"`{matched}`")
			`i += len(matched)`
			`continue`

			`parts.append(char)`
			`i += 1`

			`return "".join(parts)`


			`def apply_filter(dataframe: "pd.DataFrame", expression: str) -> "pd.DataFrame":`
			`normalized_expression = normalize_filter_expression(expression, list(dataframe.columns))`
			`try:`
			`return dataframe.query(normalized_expression, engine="python")`
			`except Exception as exc:`
			`raise DataProcessingError(`
			`f"Invalid filter expression '{expression}': {exc}"`
			`) from exc`


			`def process_data(args: argparse.Namespace) -> "pd.DataFrame":`
			`dataframe = load_data(Path(args.input), args.sheet)`
			`original_rows = len(dataframe)`

			`if args.filter_expr:`
			`dataframe = apply_filter(dataframe, args.filter_expr)`

			`if args.sort:`
			`validate_columns(dataframe, args.sort, "sort")`
			`dataframe = dataframe.sort_values(by=args.sort, ascending=not args.sort_desc)`

			`if args.dedup:`
			`validate_columns(dataframe, [args.dedup], "deduplicate")`
			`dataframe = dataframe.drop_duplicates(subset=[args.dedup], keep=args.keep)`

			`final_rows = len(dataframe)`
			`print(f"Rows before processing: {original_rows}")`
			`print(f"Rows after processing: {final_rows}")`
			`return dataframe`


			`def main() -> int:`
			`args = parse_args()`
			`try:`
			`result = process_data(args)`
			`save_data(result, Path(args.output))`
			`print(f"Output written to: {args.output}")`
			`return 0`
			`except DataProcessingError as exc:`
			`print(f"Error: {exc}", file=sys.stderr)`
			`return 1`
			`except KeyboardInterrupt:`
			`print("Error: Operation cancelled by user.", file=sys.stderr)`
			`return 130`


			`if __name__ == "__main__":`
			`sys.exit(main())`