
XML Processing in Python我将要构建一个项目,该项目需要构造XML文档并将其发布到Web服务,并且我想用Python来完成它,以此来扩展我的技能。 不幸的是,尽管我对.NET相当了解XML模型,但是我不确定Python中XML模型的优缺点。 任何人都有使用Python处理XML的经验吗? 你会建议我从哪里开始? 我将要构建的XML文件将非常简单。 ElementTree有一个不错的pythony API。我认为它甚至是python 2.5的一部分 它是用纯python编写的,正如我所说的,还不错,但是如果您最终需要更多性能,则lxml公开相同的API并在后台使用libxml2。从理论上讲,您可以在发现需要时将其换入。 就个人而言,我曾在一个XML繁重的项目中使用了多个内置选项,并已将pulldom定位为不太复杂的文档的最佳选择。 尤其是对于小的简单内容,我喜欢事件驱动的解析理论,而不是为相对简单的结构设置整个回调系列。这是有关如何使用API??的快速讨论。
我喜欢什么:您可以在 这取决于文档需要多么复杂。 我在编写XML时经常使用minidom,但是通常只是读取文档,进行一些简单的转换,然后再写回。在我需要排序元素属性的能力之前,这种方法已经足够好了(以满足无法正确解析XML的古老应用程序)。那时我放弃了,自己写了XML。
如果您只是在处理简单的文档,那么比学习框架更快,更简单。如果可以想象手工编写XML,那么也可以手工编写XML(只是要记住正确地转义特殊字符,并使用 我已经将ElementTree用于多个项目并推荐它。 它是pythonic,随Python 2.5一起提供,包括c版本cElementTree(xml.etree.cElementTree),它比纯Python版本快20倍,并且非常易于使用。 lxml具有一些性能优势,但是它们并不平衡,因此您应该首先检查用例的基准。 据我了解,ElementTree代码可以轻松移植到lxml。 通常,有3种主要的XML处理方式:dom,sax和xpath。如果您有能力将整个xml文件立即加载到内存中,并且您不介意处理数据结构,并且正在查看该模型的大部分/大部分,则dom模型是很好的。如果您只关心几个标签,并且/或者您正在处理大文件并且可以按顺序处理它们,那么sax模型非常有用。 xpath模型只是每个模型的一点点-您可以选择所需的数据元素的路径,但需要使用更多的库。 如果您想直接使用Python打包,那么minidom是您的答案,但是这很la脚,文档是" dom的文档,请弄清楚"。真烦人。 就个人而言,我喜欢cElementTree,这是ElementTree的更快(基于c)的实现,而ElementTree是一个类似于dom的模型。 我使用过sax系统,并且在许多方面它们在感觉上更像" pythonic",但是我通常最终会创建基于状态的系统来处理它们,而这就是疯狂(和错误)。 我说如果您喜欢研究,可以选择minidom,如果您想要好的代码能很好地工作,可以选择ElementTree。 您也可以尝试解开来解析简单的XML文档。 我编写了一个SOAP服务器,该服务器接收XML请求并创建XML响应。 (不幸的是,这不是我的项目,所以它是封闭源代码,但这是另一个问题)。 对我来说,如果您具有"适合"模式的数据结构,则创建(SOAP)XML文档非常简单。
我保留信封,因为响应信封(几乎)与请求信封相同。然后,由于我的数据结构是一个(可能是嵌套的)字典,因此我创建了一个字符串,将该字典转换为 递归使这项任务变得简单,最终我得到了正确的结构。这一切都在python代码中完成,并且目前足够快用于生产。 您也可以(相对)轻松地构建列表,尽管您可能会遇到问题,除非您给出长度提示,这取决于您的客户。 对我来说,这要简??单得多,因为字典比某些自定义类要容易得多。对于书籍而言,生成XML比解析容易得多! 由于您提到要构建"非常简单"的XML,因此minidom模块(Python标准库的一部分)可能会满足您的需求。如果您有XML的DOM表示方面的经验,则应该找到非常简单的API。 要在Python中认真使用XML,请使用lxml Python随附ElementTree内置库,但是lxml在速度和功能(模式验证,sax解析,XPath,各种迭代器和许多其他功能)方面对其进行了扩展。 您必须安装它,但是在许多地方,已经假定它是标准设备的一部分(例如,Google AppEngine不允许基于C的Python软件包,但lxml,pyyaml和其他一些例外)。 使用E-factory构建XML文档(来自lxml) 您的问题是关于构建XML文档。 有了lxml,有很多方法,我花了一些时间才找到它,它似乎易于使用,也易于阅读。 来自lxml doc的有关使用电子工厂的示例代码(略有简化): 电子工厂为生成XML和HTML提供了一种简单而紧凑的语法:
我喜欢在电子工厂中进行以下操作 代码几乎读取为生成的XML文档 可读性很重要。 允许创建任何XML内容 支持类似的东西:
允许带有列表的易读结构 例如。:
导致:
结论 我强烈建议阅读lxml教程-它写得很好,并且将为您提供更多使用此功能强大的库的理由。 lxml的唯一缺点是必须对其进行编译。请参阅SO答案以获取更多技巧,如何在不到一秒的时间内从轮式格式软件包安装lxml。
我强烈建议 如果您要构建SOAP消息,请查看soaplib。它在后台使用ElementTree,但是它为序列化和反序列化消息提供了更加简洁的界面。 我假设处理XML的.NET方法建立在某种版本的MSXML上,并且在这种情况下,我假设使用minidom将使您感到宾至如归。但是,如果您正在执行的是简单处理,那么任何库都可能会执行。 在Python中处理XML时,我也更喜欢使用ElementTree,因为它是一个非常简洁的库。 |